ABSTRACT


Maschinenlesbare deutsch- und englischsprachige Textkorpora

Gisela Zunker und Reinhard Rapp, Universität-GH Paderborn

In der Computerlinguistik werden für Anwendungen in den Bereichen Spracherkennung, Rechtschreibfehlerkorrektur, Information Retrieval, Lexikographie und maschinelle Übersetzung zunehmend textstatistische Verfahren eingesetzt. Für diese ist es von grundlegender Bedeutung, daß die benötigten Schätzungen für Übergangswahrscheinlichkeiten, Kookkurrenzen und andere sprachstatistische Indikatoren hinreichend abgesichert sind. Hierzu werden möglichst repräsentative Texte größeren Umfanges in maschinenlesbarer Form benötigt.

Obwohl heutzutage in Verlagen und Druckereien überwiegend mit EDV gearbeitet wird, stellt die Beschaffung maschinenlesbarer Texte aus Kosten-, Urheberrechts- und Datenschutzgründen noch immer ein Problem dar. Zudem macht es die Vielfalt der in der Datenverarbeitung verwendeten Anlagen und Datenformate erforderlich, für fast jeden Text eine eigene, nicht immer einfache Konvertierung durchzuführen.

Es hat sich gezeigt, daß der für die Korpusbeschaffung erforderliche Aufwand ein erhebliches Hindernis für die Weiterentwicklung textstatistischer Verfahren darstellt. Deshalb wurden in jüngster Zeit Initiativen gegründet, die zum Ziel haben, die bislang von einzelnen Arbeitsgruppen geleistete Korpusarbeit zu bündeln und interessierten Wissenschaftlern die gesammelten Korpora zugänglich zu machen. Diese Initiativen werden vorgestellt, und es wird eine Übersicht über die wichtigsten Textarchive gegeben, die aufbereitete Korpora größeren Umfanges zur Verfügung stellen.



Paper im Postscript-Format

Reinhard Rapp
Mon Aug 19 16:33:46 MET DST 1996