In diesem Kapitel sollen statistische Verfahren besprochen werden, die es ermöglichen, jedem Wort eines Textes die unter Berücksichtigung des jeweiligen Kontextes korrekte Wortart zuzuordnen. In der englischsprachigen Fachliteratur wurde hierfür der Begriff ``part-of-speech tagging'' (Wortarten-Annotierung) geprägt. Ein Programm zur Wortarten-Annotierung wird meist kurz als ``tagger'', eine einzelne Wortarten-Markierung als ``tag'' bezeichnet. Diese Begriffe werden im Weiteren - teilweise in eingedeutschter Form - verwendet.
Die Möglichkeit der maschinellen Wortarten-Annotierung eröffnet für ein breites Spektrum computerlinguistischer, informationswissenschaftlicher und psycholinguistischer Problemstellungen neue Perspektiven: Sampson (1986) verwendet einen Tagger als Syntax-Parser. Atwell (1987) beschreibt, wie ein annotiertes Korpus für die grammatische Überprüfung eines Textes verwendet werden kann. Church (1988) zeigt, wie mit Hilfe eines annotierten Korpus Nominalphrasen maschinell lokalisiert werden können. Basili & Pazienza (1992) extrahieren aus einem annotierten Korpus Wortassoziationen. Wothke et al. (1993) beschreiben Einsatzmöglichkeiten für die automatische Spracherkennung. Carroll & Charniak (1992) verwenden syntaktisch annotierte Korpora zur maschinellen Extraktion einer Dependenz-Grammatik.
Weitere mögliche Anwendungen umfassen die Lemmatisierung von Texten, das automatische Indexieren von Dokumenten, die maschinelle Übersetzung, die Sprachsynthese und die Voraussage sprachlicher Leistungen (z. B. Lückentextergänzung).
Da der Wortschatz natürlicher Sprachen ständigen Wandlungen ausgesetzt ist, muß man annehmen, daß auch beim kindlichen Spracherwerb die Bildung von Wortklassen eine Voraussetzung für den Erwerb syntaktischer Regeln ist. Die unbewußte Verwendung von Wortklassen zeigt sich auch bei Grammatikalitätsurteilen . Daß Sätze wie
Gläserne Bücher wachsen rot.
als syntaktisch korrekt eingestuft werden, setzt voraus, daß Wörter in Wortklassen gruppiert wurden. Die (meist unbewußten) Kenntnisse über Wortarten sind jedoch auch Grundlage für eine Reihe weiterer sprachlicher Leistungen: der richtigen grammatischen Zuordnung unbekannter Wörter, der Interpretation von mehrdeutigen Wörtern, und dem Ergänzen von Textlücken.
Das folgende Beispiel bezieht sich auf die Disambiguierung mehrdeutiger Wortformen. So würde etwa in dem Satz
Ich meine meine Frau.
dem Wort meine an der ersten Auftretensposition die Wortart Verb, an der zweiten Auftretensposition hingegen die Wortart Possessivpronomen zugewiesen werden, und ein Übersetzungssystem könnte daraus Schlüsse für die jeweils unterschiedliche Übersetzung von meine ziehen.
In Anlehnung an Kapitel
soll jedoch auch in diesem Abschnitt
die Lückentextergänzung als zentrales Grundproblem angesehen
werden. Der dort vorgeschlagene Ansatz sah ein Matching eines
zu analysierenden Eingabetextes mit den in einem umfangreichen
Textkorpus vorgefundenen Wortfolgen vor. Das Problem dabei war,
daß zumeist nur mit sehr kurzen Wortfolgen, etwa Tupeln oder
Tripeln, ein Match erzielt werden konnte, nicht aber mit längeren
Wortfolgen. Dies liegt daran, daß jedes einzelne Wort eines
Satzes durch eine Vielzahl anderer Wörter ersetzt werden
kann, ohne daß der Satz syntaktisch inkorrekt wird. Demnach
ist es sehr unwahrscheinlich, an einer festgelegten Satzposition
ein bestimmtes Wort vorzufinden.
Äquivalent ist die Betrachtungsweise, daß die Anzahl konstruierbarer
Wortfolgen mit zunehmender Wortfolgenlänge exponentiell wächst.
Gale & Church (1990) haben in ähnlichem Zusammenhang gezeigt, daß das Problem, in einem Korpus eine bestimmte Wortfolge zu finden, nicht einfach dadurch gelöst werden kann, daß immer größere Korpora verwendet werden. Dies deshalb, weil durch die Wortbildung das Vokabular nicht als abgeschlossen betrachtet werden kann:
``One might think that the sparse data problem could be solved by collecting larger corpora, but ironically, the problem only gets worse as we look at more data. The vocabulary is not fixed: both N [size of the corpus] and V [number of words in vocabulary] grow as we look at more data. The rate of growth is still a matter of debate, but the evidence clearly shows thatEin geeigneter Weg, dieses Problem in den Griff zu bekommen ist der, den Wörtern einer Sprache Wortarten zuzuordnen, so daß solche Wörter, die sich kontextuell gleich verhalten, derselben Wortart angehören. Es zeigt sich, daß man in der Praxis mit in der Größenordnung von 100 Wortarten auskommt, und damit reduziert sich die Anzahl der Möglichkeiten pro Wortposition im Durchschnitt von einigen Tausend auf einige Dutzend. Gleichzeitig braucht die Anzahl der Wortarten bei Vergrößerung des Vokabulars nicht erhöht zu werden, da die bei Erweiterung eines schon umfangreichen Korpus noch hinzukommenden seltenen Wörter den vorhandenen Wortarten zugeordnet werden können. Demnach gilt die Aussage von Church für Wortarten nicht mehr, und es ist also theoretisch möglich, ein repräsentatives Korpus für die Aufeinanderfolge von Wortarten zu erstellen., and therefore, the sparse data problem only gets worse as we look at more and more data.''
Welchen Nutzen ein solches Korpus für die Lückentextergänzung haben könnte, sei an einem Beispiel gezeigt:
Hans und Kurt
ein Fahrrad
Das Textkorpus enthalte folgende relevante Sätze:
Kurt kauft ein Auto
Fritz und Joachim essen ein großes Eis
Beim Matching auf Wortebene würde also die optimale Übereinstimmung für die Wortfolge ``Kurt kauft ein'' erzielt, dementsprechend würde das System das Wort kauft zur Lückenergänzun vorschlagen. Dies ist eine inkorrekte Lösung, da wegen mangelnder Repräsentativität des Korpus kein ausreichender Kontext berücksichtigt werden konnte.
Bei Betrachtung dieses Beispieles auf Wortartenebene ergibt sich für den Lückentext folgendes Bild:
| Hans | und | Kurt | | ein | Fahrrad |
| Name | Konjunktion | Name | | Artikel | Substantiv |
| Nominativ | Nominativ | Akkusativ | Akkusativ | ||
| Singular | Singular | Singular | Singular | ||
| maskulinum | maskulinum | neutrum | neutrum |
Die Wortarten für die beiden Korpussätze lauten:
| Kurt | kauft | ein | Auto | ||
| Name | Verb | Artikel | Substantiv | ||
| Nominativ | 1. Person Singular | Akkusativ | Akkusativ | ||
| Singular | Indikativ | Singular | Singular | ||
| maskulinum | Präsens | neutrum | neutrum |
| Fritz | und | Joachim | essen | ein | großes | Eis |
| Name | Kon- | Name | Verb | Artikel | Adjektiv | Substantiv |
| Nominativ | junk- | Nominativ | 3.Pers.Pl. | Akkusativ | Akkusativ | Akkusativ |
| Singular | tion | Singular | Indikativ | Singular | Singular | Singular |
| maskulinum | maskulinum | Präsens | neutrum | neutrum | neutrum |
Bei Betrachtung der Wortarten weist der zweite Satz eine größere
Übereinstimmung zum Lückentext auf als der erste, demnach
schlägt das System die Wortart Verb, 3. Person Plural, Indikativ, Präsens zur Ergänzung vor. Damit wurde nicht nur ein korrektes
Ergebnis erzielt, sondern zugleich eine Verallgemeinerung der Lösung auf syntaktischer Ebene. Gleichzeitig ist aber semantische
Information verloren gegangen, da das System nun gleichermaßen
alle Wörter dieser Wortart
vorschlägt, also etwa auch lernen, schreiben etc.
Um hier eine Rangfolge zu bilden, könnte nun an dieser Stelle ein
Matching auf Wortebene durchgeführt werden (vergl. Kapitel
).
Eine statistisch
bessere Absicherung läßt sich erzielen, wenn die Rangfolge
zusätzlich auf Grund der assoziativen Ähnlichkeit zu den
Wörtern des Kontextes (vergl. Kapitel
) beeinflußt wird.