Parsing af ikke-strukturerede ordbogsdata
Resumé
Firmaet TEXTware har gennem de seneste 4 år konverteret traditionelle data til et stort antal ordbøger til struktureret tekst, dvs. tekst med eksplicit markering af en hierarkisk struktur, i overesstemmelse med den internationale SGML-standard. SGML-teksten er blevet anvendt i redigeringssystemet GestorLEX eller som et led i produktionen af elektroniske ordbøger eller til begge formål. Erfaringerne fra dette arbejde peger på et antal typiske problemer i forbindelse med parsing, dvs. automatisk strukturering, af eksisterende, ikke-strukturerede ordbogsdata - typisk fotosætter - eller tekstbehandlingsfiler. Problemerne spænder fra banale tegnsætningsfejl over strukturer, der er problematiske for en maskine men ikke for en menneskelig læser, til principielt uløselige fortolkningsspørgsmål. De enkelte problemtyper og mulige løsninger bliver præsenteret, og det diskuteres, hvordan og i hvilket omfang erfaringerne fra parsing kan udnyttes til at højne kvaliteten af såvel trykte som elektroniske ordbøger.
Downloads
Publiceret
Citation/Eksport
Nummer
Sektion
Licens
Nordisk Forening for Leksikografi/NSL og forfatterne.