Parsing af ikke-strukturerede ordbogsdata

Forfattere

  • Claus Bo Jørgensen

Resumé

Firmaet TEXTware har gennem de seneste 4 år konverteret traditionelle data til et stort antal ordbøger til struktureret tekst, dvs. tekst med eksplicit markering af en hierarkisk struktur, i overesstemmelse med den internationale SGML-standard. SGML-teksten er blevet anvendt i redigeringssystemet GestorLEX eller som et led i produktionen af elektroniske ordbøger eller til begge formål. Erfaringerne fra dette arbejde peger på et antal typiske problemer i forbindelse med parsing, dvs. automatisk strukturering, af eksisterende, ikke-strukturerede ordbogsdata - typisk fotosætter - eller tekstbehandlingsfiler. Problemerne spænder fra banale tegnsætningsfejl over strukturer, der er problematiske for en maskine men ikke for en menneskelig læser, til principielt uløselige fortolkningsspørgsmål. De enkelte problemtyper og mulige løsninger bliver præsenteret, og det diskuteres, hvordan og i hvilket omfang erfaringerne fra parsing kan udnyttes til at højne kvaliteten af såvel trykte som elektroniske ordbøger.

Downloads

Publiceret

1993-01-01

Citation/Eksport

Jørgensen, C. B. (1993). Parsing af ikke-strukturerede ordbogsdata. Nordiske Studier I Leksikografi, (2). Hentet fra https://tidsskrift.dk/nsil/article/view/19683

Nummer

Sektion

Artikler