Für textstatistische Arbeiten ist es von grundlegender Bedeutung, daß die benötigten Schätzungen für Übergangswahrscheinlichkeiten, Kookkurrenzen und andere sprachstatistische Indikatoren hinreichend abgesichert sind. Hierzu werden möglichst repräsentative Texte größeren Umfanges in maschinenlesbarer Form benötigt. Obwohl heutzutage in Verlagen und Druckereien überwiegend mit EDV gearbeitet wird, stellt die Beschaffung von Texten aus Kosten-, Urheberrechts- und Datenschutzgründen noch immer ein Problem dar. Zudem macht es die Vielfalt der in der Datenverarbeitung verwendeten Anlagen und Datenformate erforderlich, für fast jeden Text eine nicht immer einfache Konvertierung durchzuführen.
Erst in den letzten zwei Jahrzehnten wurde eine Anzahl größerer Textkorpora erstellt, die in bereits aufbereiteter Form bezogen werden können. Einen Überblick über solche Korpora geben die Aufsätze von Allen (1989), Johannson & Stenström (1991), Sampson (1992), Schaeder (1976) sowie Taylor, Leech & Fligelstone (1991). Abhandlungen der Korpusproblematik im Allgemeinen finden sich in Bergenholtz & Mugdan (1989), Biber (1993), Johannsson (1989) und Stahlheber (1991).
Für die im Rahmen der vorliegenden Arbeit durchgeführten
textstatistischen Arbeiten wurde eine große Zahl
unterschiedlicher Korpora eingesetzt. Die meisten davon
sind in den oben genannten Aufsätzen noch nicht enthalten
bzw. wurden neu erstellt. Deshalb wird in
den Abschnitten
und
eine Übersicht über die
verwendeten Korpora und ihre Bezugsquellen gegeben.
Alle neueren deutschsprachigen Korpora wurden mit Unterstützung von
Gisela Zunker akquiriert, die die Kontakte zu Zeitungsverlagen,
Nachrichtenagenturen und Rundfunksendern herstellte und
pflegte (Zunker & Rapp, 1994).
Für einen Großteil der Korpora wurden Konvertierungsprogramme
erstellt, die die auf verschiedenen Maschinen in den
unterschiedlichsten Formaten gespeicherten Texte in ein einheitliches
ASCII-Format überführen.
In jüngster Zeit wurden mehrere Korpusinitiativen
gegründet, die es sich zum Ziel gesetzt haben,
in erster Linie für wissenschaftliche Zwecke auch nach
heutigen Maßstäben umfangreiche maschinenlesbare Texte
fast kostenlos zur Verfügung zu stellen. Einige
Adressen sind in Abschnitt
aufgeführt
(s. auch Church & Mercer, 1993).
Eine weitere wichtige Bezugsquelle für Texte ist das
Internet , ein weltweites Netzwerk aus mehreren Millionen Rechnern
mit Schwerpunkt in den USA, an das die meisten Universitäten, viele
Forschungseinrichtungen und einige Firmen angeschlossen sind und
das zunehmend auch Eingang in den privaten Bereich findet (Zugang
über Mailboxen, CompuServe oder Datex-J, s. Scheuerer, 1994). Manche
der an das Internet angeschlossenen Rechner stellen Texte
zur Verfügung, die mittels des Datei-Übertragungsprogrammes
FTP (File Transfer Protocol) heruntergeladen,
d. h. vom Host auf den lokalen Rechner transferiert
werden können. Die Informationsbeschaffung über
das Internet ist aber deswegen schwierig, weil niemand einen vollständigen
Überblick hat, auf welchem Rechner was angeboten wird. Mittlerweile
gibt es allerdings Suchhilfen wie Archie , Gopher ,
WAIS und das World-Wide-Web . Archie ermöglicht die Suche nach
Dateien, deren Namen zumindest teilweise bekannt sein müssen.
Gopher bietet
eine hierarchische Strukturierung der Informationen im Netzwerk über Menüs
mit mehreren Ebenen. WAIS (Wide Area Information Servers) ermöglicht
eine Volltextsuche im Internet. Das World-Wide-Web ist ein
weltumspannendes Hypertextsystem, das unter einer einheitlichen,
einfach zu bedienenden Hypertext-Benutzeroberfläche die Funktionalität
mehrerer anderer Internet-Dienste vereint. Weitere Informationen zum Internet,
das in Verbindung mit dem Public-Domain-Gedanken eine
Informations-Revolution ausgelöst hat, findet man
in Maier & Wildberger
(1993), Laquey (1993), Klau (1994),
sowie in dem Text ``Zen and the Art of Internet'' von Brendan P. Kehoe,
der vom Project Gutenberg über das Internet kostenlos zur Verfügung
gestellt wird (s. Abschnitt
).
Wichtige Informationsquellen über aktuelle Entwicklungen in
einzelnen Fachgebieten sind die sogenannten Mail-Listen oder
Mail-Verteiler , die Informationen oder Anfragen einzelner
Benutzer, aber auch Tagungsankündigungen und Stellenangebote
über das Internet mittels elektronischer Post
an einen größeren Kreis von Abonnenten kostenlos weiterverteilen.
Im Zusammenhang mit der Korpuslinguistik sind insbesondere
zwei Mail-Listen von Interesse: zum einen
die von Knut Hofland am Norwegian Computing Centre for the
Humanities betriebene ``Corpora''-Liste ,
zum anderen der
``Empiricists''-Mailverteiler von Martin Röscheisen an der
Stanford-University.
Eine sehr empfehlenswerte Informationsquelle im Bereich der
Computerlinguistik ist auch ein elektronisches Textarchiv,
das Computation and Language E-Print Archive , über das eine
Vielzahl aktueller Publikationen als formatierte Volltexte
(LaTeX oder Postscript) kostenlos abgerufen werden
können.
Bei der Nutzung des großen Textangebotes auf CD-ROM , das
beispielsweise in Form von Lexika und Datenbanken zur
Verfügung steht (s. Würtz, 1991), trat mitunter das Problem auf, daß
die jeweils mitgelieferten Retrieval-Programme ein
komplettes Kopieren der Texte auf eine Festplatte nicht
vorsahen. Hier erwies sich der programmierbare Tastatursimulator
Prokey (Rapp, 1991a) als nützlich, der es auf IBM-kompatiblen
Personal Computern erlaubt, Tastatureingaben
vorab in einer Datei zu speichern und anschließend automatisch
ablaufen zu lassen. Damit ist es möglich, die in den meisten
Fällen vorzufindende Kopierfunktion für einzelne Datensätze
so lange zu wiederholen, bis der gesamte Text übertragen
ist.
Für die Akquisition von Transkripten gesprochener Sprache wurde von Torsten Knöfel eine Konzeption realisiert, mit der Film-Untertitel aus dem Videotext-System des deutschen Fernsehens auf einen PC übertragen werden können. Hierzu wurde die von Loy (1991) beschriebene Video-Decoder-Steckkarte für IBM-kompatible PCs nachgebaut und die Steuersoftware in geeigneter Weise erweitert. Damit ist es möglich, neben den auf Videotext-Seite 150 gesendeten Untertiteln auch alle übrigen Informationsseiten des Videotext-Systems auf einem PC als ASCII-Datei zu speichern.
Im Dauerbetrieb arbeitet das Steuerprogramm wie folgt: Zunächst werden die Uhrzeiten von PC und Videotext-System synchronisiert. Dann stellt das Programm mit Hilfe der sog. TOP-Seite fest, welche Videotext-Seiten gerade belegt sind (vergl. Eitz et al., 1987, Lerch, 1989 und Scheibler, 1992). Anschließend werden die Seiten mit dem aktuellen Fernsehprogramm geladen. Darin sind diejenigen Sendungen, zu denen Untertitel ausgestrahlt werden, mit einem Stern markiert. Auf diese Weise kann das Programm die Anfangs- und Endzeiten untertitelter Sendungen feststellen, um während dieser Perioden die Untertitel-Seite 150 abzuscannen. In der übrigen Zeit werden alle vorhandenen Nachrichtenseiten heruntergeladen. Da das Videotext-System keine Mechanismen zur Fehlererkennung oder Fehlerkorrektur zur Verfügung stellt, in der Praxis aber in Abhängigkeit von der Empfangsqualität des Senders relativ häufig einzelne Zeichen falsch übertragen werden, wurde das Steuerprogramm so ausgelegt, daß das Laden einer Seite so lange wiederholt wird, bis für jede Zeichenposition einer Seite mit hoher Wahrscheinlichkeit das korrekte Zeichen ermittelt werden kann.