Parsing af ikke-strukturerede ordbogsdata

Authors

  • Claus Bo Jørgensen

Abstract

Firmaet TEXTware har gennem de seneste 4 år konverteret traditionelle data til et stort antal ordbøger til struktureret tekst, dvs. tekst med eksplicit markering af en hierarkisk struktur, i overesstemmelse med den internationale SGML-standard. SGML-teksten er blevet anvendt i redigeringssystemet GestorLEX eller som et led i produktionen af elektroniske ordbøger eller til begge formål. Erfaringerne fra dette arbejde peger på et antal typiske problemer i forbindelse med parsing, dvs. automatisk strukturering, af eksisterende, ikke-strukturerede ordbogsdata - typisk fotosætter - eller tekstbehandlingsfiler. Problemerne spænder fra banale tegnsætningsfejl over strukturer, der er problematiske for en maskine men ikke for en menneskelig læser, til principielt uløselige fortolkningsspørgsmål. De enkelte problemtyper og mulige løsninger bliver præsenteret, og det diskuteres, hvordan og i hvilket omfang erfaringerne fra parsing kan udnyttes til at højne kvaliteten af såvel trykte som elektroniske ordbøger.

Downloads

Published

1993-01-01

How to Cite

Jørgensen, C. B. (1993). Parsing af ikke-strukturerede ordbogsdata. Nordiske Studier I Leksikografi, (2). Retrieved from https://tidsskrift.dk/nsil/article/view/19683

Issue

Section

Artikler