next up previous contents index
Next: Bezugsquellen für Korpora Up: No Title Previous: Zusammenfassung

 

Anhang A: Die verwendeten Textkorpora  und ihre Bezugsquellen

 

Für textstatistische Arbeiten ist es von grundlegender Bedeutung, daß die benötigten Schätzungen für Übergangswahrscheinlichkeiten, Kookkurrenzen und andere sprachstatistische Indikatoren hinreichend abgesichert sind. Hierzu werden möglichst repräsentative Texte größeren Umfanges in maschinenlesbarer Form benötigt. Obwohl heutzutage in Verlagen und Druckereien überwiegend mit EDV gearbeitet wird, stellt die Beschaffung von Texten aus Kosten-, Urheberrechts- und Datenschutzgründen noch immer ein Problem dar. Zudem macht es die Vielfalt der in der Datenverarbeitung verwendeten Anlagen und Datenformate erforderlich, für fast jeden Text eine nicht immer einfache Konvertierung durchzuführen.

Erst in den letzten zwei Jahrzehnten wurde eine Anzahl größerer Textkorpora erstellt, die in bereits aufbereiteter Form bezogen werden können. Einen Überblick über solche Korpora geben die Aufsätze von Allen (1989), Johannson & Stenström (1991), Sampson (1992), Schaeder (1976) sowie Taylor, Leech & Fligelstone (1991). Abhandlungen der Korpusproblematik im Allgemeinen finden sich in Bergenholtz & Mugdan (1989), Biber (1993), Johannsson (1989) und Stahlheber (1991).

Für die im Rahmen der vorliegenden Arbeit durchgeführten textstatistischen Arbeiten wurde eine große Zahl unterschiedlicher Korpora eingesetzt. Die meisten davon sind in den oben genannten Aufsätzen noch nicht enthalten bzw. wurden neu erstellt. Deshalb wird in den Abschnitten gif und gif eine Übersicht über die verwendeten Korpora und ihre Bezugsquellen gegeben. Alle neueren deutschsprachigen Korpora wurden mit Unterstützung von Gisela Zunker akquiriert, die die Kontakte zu Zeitungsverlagen, Nachrichtenagenturen und Rundfunksendern herstellte und pflegte (Zunker & Rapp, 1994). Für einen Großteil der Korpora wurden Konvertierungsprogramme erstellt, die die auf verschiedenen Maschinen in den unterschiedlichsten Formaten gespeicherten Texte in ein einheitliches ASCII-Format überführen.

In jüngster Zeit wurden mehrere Korpusinitiativen gegründet, die es sich zum Ziel gesetzt haben, in erster Linie für wissenschaftliche Zwecke auch nach heutigen Maßstäben umfangreiche maschinenlesbare Texte fast kostenlos zur Verfügung zu stellen. Einige Adressen sind in Abschnitt gif aufgeführt (s. auch Church & Mercer, 1993).

Eine weitere wichtige Bezugsquelle für Texte ist das Internet , ein weltweites Netzwerk aus mehreren Millionen Rechnern mit Schwerpunkt in den USA, an das die meisten Universitäten, viele Forschungseinrichtungen und einige Firmen angeschlossen sind und das zunehmend auch Eingang in den privaten Bereich findet (Zugang über Mailboxen, CompuServe oder Datex-J, s. Scheuerer, 1994). Manche der an das Internet angeschlossenen Rechner stellen Texte zur Verfügung, die mittels des Datei-Übertragungsprogrammes FTP (File Transfer Protocol)  heruntergeladen, d. h. vom Host auf den lokalen Rechner transferiert werden können. Die Informationsbeschaffung über das Internet ist aber deswegen schwierig, weil niemand einen vollständigen Überblick hat, auf welchem Rechner was angeboten wird. Mittlerweile gibt es allerdings Suchhilfen wie Archie , Gopher , WAIS und das World-Wide-Web . Archie ermöglicht die Suche nach Dateien, deren Namen zumindest teilweise bekannt sein müssen. Gopher bietet eine hierarchische Strukturierung der Informationen im Netzwerk über Menüs mit mehreren Ebenen. WAIS (Wide Area Information Servers) ermöglicht eine Volltextsuche im Internet. Das World-Wide-Web ist ein weltumspannendes Hypertextsystem, das unter einer einheitlichen, einfach zu bedienenden Hypertext-Benutzeroberfläche die Funktionalität mehrerer anderer Internet-Dienste vereint. Weitere Informationen zum Internet, das in Verbindung mit dem Public-Domain-Gedanken eine Informations-Revolution ausgelöst hat, findet man in Maier & Wildberger (1993), Laquey (1993), Klau (1994), sowie in dem Text ``Zen and the Art of Internet'' von Brendan P. Kehoe, der vom Project Gutenberg über das Internet kostenlos zur Verfügung gestellt wird (s. Abschnitt gif).

Wichtige Informationsquellen über aktuelle Entwicklungen in einzelnen Fachgebieten sind die sogenannten Mail-Listen oder Mail-Verteiler , die Informationen oder Anfragen einzelner Benutzer, aber auch Tagungsankündigungen und Stellenangebote über das Internet mittels elektronischer Post an einen größeren Kreis von Abonnenten kostenlos weiterverteilen. Im Zusammenhang mit der Korpuslinguistik sind insbesondere zwei Mail-Listen von Interesse: zum einen die von Knut Hofland am Norwegian Computing Centre for the Humanities betriebene ``Corpora''-Liste ,gif zum anderen der ``Empiricists''-Mailverteiler von Martin Röscheisen an der Stanford-University.gif Eine sehr empfehlenswerte Informationsquelle im Bereich der Computerlinguistik ist auch ein elektronisches Textarchiv, das Computation and Language E-Print Archive , über das eine Vielzahl aktueller Publikationen als formatierte Volltexte (LaTeX oder Postscript) kostenlos abgerufen werden können.gif

Bei der Nutzung des großen Textangebotes auf CD-ROM , das beispielsweise in Form von Lexika und Datenbanken zur Verfügung steht (s. Würtz, 1991), trat mitunter das Problem auf, daß die jeweils mitgelieferten Retrieval-Programme ein komplettes Kopieren der Texte auf eine Festplatte nicht vorsahen. Hier erwies sich der programmierbare Tastatursimulator  Prokey  (Rapp, 1991a) als nützlich, der es auf IBM-kompatiblen Personal Computern erlaubt, Tastatureingaben vorab in einer Datei zu speichern und anschließend automatisch ablaufen zu lassen. Damit ist es möglich, die in den meisten Fällen vorzufindende Kopierfunktion für einzelne Datensätze so lange zu wiederholen, bis der gesamte Text übertragen ist.gif

Für die Akquisition von Transkripten gesprochener Sprache wurde von Torsten Knöfel eine Konzeption realisiert, mit der Film-Untertitel aus dem Videotext-System  des deutschen Fernsehens auf einen PC übertragen werden können. Hierzu wurde die von Loy (1991) beschriebene Video-Decoder-Steckkarte für IBM-kompatible PCs nachgebaut und die Steuersoftware in geeigneter Weise erweitert. Damit ist es möglich, neben den auf Videotext-Seite 150 gesendeten Untertiteln auch alle übrigen Informationsseiten des Videotext-Systems auf einem PC als ASCII-Datei zu speichern.

Im Dauerbetrieb arbeitet das Steuerprogramm wie folgt: Zunächst werden die Uhrzeiten von PC und Videotext-System synchronisiert. Dann stellt das Programm mit Hilfe der sog. TOP-Seite fest, welche Videotext-Seiten gerade belegt sind (vergl. Eitz et al., 1987, Lerch, 1989 und Scheibler, 1992). Anschließend werden die Seiten mit dem aktuellen Fernsehprogramm geladen. Darin sind diejenigen Sendungen, zu denen Untertitel ausgestrahlt werden, mit einem Stern markiert. Auf diese Weise kann das Programm die Anfangs- und Endzeiten untertitelter Sendungen feststellen, um während dieser Perioden die Untertitel-Seite 150 abzuscannen. In der übrigen Zeit werden alle vorhandenen Nachrichtenseiten heruntergeladen. Da das Videotext-System keine Mechanismen zur Fehlererkennung oder Fehlerkorrektur zur Verfügung stellt, in der Praxis aber in Abhängigkeit von der Empfangsqualität des Senders relativ häufig einzelne Zeichen falsch übertragen werden, wurde das Steuerprogramm so ausgelegt, daß das Laden einer Seite so lange wiederholt wird, bis für jede Zeichenposition einer Seite mit hoher Wahrscheinlichkeit das korrekte Zeichen ermittelt werden kann.




next up previous contents index
Next: Bezugsquellen für Korpora Up: No Title Previous: Zusammenfassung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997