next up previous contents index
Next: Programme für die automatische Up: No Title Previous: Zusammenfassung und Ausblick

 

Kontextorientierte Wortartenbestimmung

 

In diesem Kapitel sollen statistische Verfahren besprochen werden, die es ermöglichen, jedem Wort eines Textes die unter Berücksichtigung des jeweiligen Kontextes korrekte Wortart zuzuordnen. In der englischsprachigen Fachliteratur wurde hierfür der Begriff ``part-of-speech tagging''  (Wortarten-Annotierung)  geprägt. Ein Programm zur Wortarten-Annotierung wird meist kurz als ``tagger'', eine einzelne Wortarten-Markierung als ``tag''  bezeichnet. Diese Begriffe werden im Weiteren - teilweise in eingedeutschter Form - verwendet.

Die Möglichkeit der maschinellen Wortarten-Annotierung eröffnet für ein breites Spektrum computerlinguistischer, informationswissenschaftlicher und psycholinguistischer Problemstellungen neue Perspektiven: Sampson (1986) verwendet einen Tagger als Syntax-Parser. Atwell (1987) beschreibt, wie ein annotiertes Korpus für die grammatische Überprüfung eines Textes verwendet werden kann. Church (1988) zeigt, wie mit Hilfe eines annotierten Korpus Nominalphrasen  maschinell lokalisiert werden können. Basili & Pazienza (1992) extrahieren aus einem annotierten Korpus Wortassoziationen. Wothke et al. (1993) beschreiben Einsatzmöglichkeiten für die automatische Spracherkennung. Carroll & Charniak (1992) verwenden syntaktisch annotierte Korpora zur maschinellen Extraktion einer Dependenz-Grammatik.

Weitere mögliche Anwendungen umfassen die Lemmatisierung von Texten, das automatische Indexieren von Dokumenten, die maschinelle Übersetzung, die Sprachsynthese und die Voraussage sprachlicher Leistungen (z. B. Lückentextergänzung).

Da der Wortschatz natürlicher Sprachen ständigen Wandlungen ausgesetzt ist, muß man annehmen, daß auch beim kindlichen Spracherwerb die Bildung von Wortklassen  eine Voraussetzung für den Erwerb syntaktischer Regeln ist. Die unbewußte Verwendung von Wortklassen zeigt sich auch bei Grammatikalitätsurteilen . Daß Sätze wie

Gläserne Bücher wachsen rot.

als syntaktisch korrekt eingestuft werden, setzt voraus, daß Wörter in Wortklassen gruppiert wurden. Die (meist unbewußten) Kenntnisse über Wortarten sind jedoch auch Grundlage für eine Reihe weiterer sprachlicher Leistungen: der richtigen grammatischen Zuordnung unbekannter Wörter, der Interpretation von mehrdeutigen Wörtern, und dem Ergänzen von Textlücken.

Das folgende Beispiel bezieht sich auf die Disambiguierung  mehrdeutiger Wortformen. So würde etwa in dem Satz

Ich meine meine Frau.

dem Wort meine an der ersten Auftretensposition die Wortart Verb, an der zweiten Auftretensposition hingegen die Wortart Possessivpronomen zugewiesen werden, und ein Übersetzungssystem könnte daraus Schlüsse für die jeweils unterschiedliche Übersetzung von meine ziehen.

In Anlehnung an Kapitel gif soll jedoch auch in diesem Abschnitt die Lückentextergänzung als zentrales Grundproblem angesehen werden. Der dort vorgeschlagene Ansatz sah ein Matching eines zu analysierenden Eingabetextes mit den in einem umfangreichen Textkorpus vorgefundenen Wortfolgen vor. Das Problem dabei war, daß zumeist nur mit sehr kurzen Wortfolgen, etwa Tupeln oder Tripeln, ein Match erzielt werden konnte, nicht aber mit längeren Wortfolgen. Dies liegt daran, daß jedes einzelne Wort eines Satzes durch eine Vielzahl anderer Wörter ersetzt werden kann, ohne daß der Satz syntaktisch inkorrekt wird. Demnach ist es sehr unwahrscheinlich, an einer festgelegten Satzposition ein bestimmtes Wort vorzufinden. Äquivalent ist die Betrachtungsweise, daß die Anzahl konstruierbarer Wortfolgen mit zunehmender Wortfolgenlänge exponentiell wächst.

Gale & Church (1990) haben in ähnlichem Zusammenhang gezeigt, daß das Problem, in einem Korpus eine bestimmte Wortfolge zu finden, nicht einfach dadurch gelöst werden kann, daß immer größere Korpora verwendet werden. Dies deshalb, weil durch die Wortbildung das Vokabular nicht als abgeschlossen betrachtet werden kann:

``One might think that the sparse data problem  could be solved by collecting larger corpora, but ironically, the problem only gets worse as we look at more data. The vocabulary is not fixed: both N [size of the corpus] and V [number of words in vocabulary] grow as we look at more data. The rate of growth is still a matter of debate, but the evidence clearly shows that tex2html_wrap_inline25395 , and therefore, the sparse data problem only gets worse as we look at more and more data.''
Ein geeigneter Weg, dieses Problem in den Griff zu bekommen ist der, den Wörtern einer Sprache Wortarten zuzuordnen, so daß solche Wörter, die sich kontextuell gleich verhalten, derselben Wortart angehören. Es zeigt sich, daß man in der Praxis mit in der Größenordnung von 100 Wortarten auskommt, und damit reduziert sich die Anzahl der Möglichkeiten pro Wortposition im Durchschnitt von einigen Tausend auf einige Dutzend. Gleichzeitig braucht die Anzahl der Wortarten bei Vergrößerung des Vokabulars nicht erhöht zu werden, da die bei Erweiterung eines schon umfangreichen Korpus noch hinzukommenden seltenen Wörter den vorhandenen Wortarten zugeordnet werden können. Demnach gilt die Aussage von Church für Wortarten nicht mehr, und es ist also theoretisch möglich, ein repräsentatives Korpus für die Aufeinanderfolge von Wortarten zu erstellen.

Welchen Nutzen ein solches Korpus für die Lückentextergänzung haben könnte, sei an einem Beispiel gezeigt:

Hans und Kurt tex2html_wrap_inline23685 ein Fahrrad

Das Textkorpus enthalte folgende relevante Sätze:

Kurt kauft ein Auto
Fritz und Joachim essen ein großes Eis

Beim Matching auf Wortebene würde also die optimale Übereinstimmung für die Wortfolge ``Kurt kauft ein'' erzielt, dementsprechend würde das System das Wort kauft zur Lückenergänzun  vorschlagen. Dies ist eine inkorrekte Lösung, da wegen mangelnder Repräsentativität des Korpus kein ausreichender Kontext berücksichtigt werden konnte.

Bei Betrachtung dieses Beispieles auf Wortartenebene ergibt sich für den Lückentext folgendes Bild:

Hans und Kurt tex2html_wrap_inline23685 ein Fahrrad
Name Konjunktion Name tex2html_wrap_inline23685 Artikel Substantiv
Nominativ Nominativ Akkusativ Akkusativ
Singular Singular Singular Singular
maskulinum maskulinum neutrum neutrum

Die Wortarten für die beiden Korpussätze lauten:

Kurt kauft ein Auto
Name Verb Artikel Substantiv
Nominativ 1. Person Singular Akkusativ Akkusativ
Singular Indikativ Singular Singular
maskulinum Präsens neutrum neutrum

Fritz und Joachim essen ein großes Eis
Name Kon- Name Verb Artikel Adjektiv Substantiv
Nominativ junk- Nominativ 3.Pers.Pl. Akkusativ Akkusativ Akkusativ
Singular tion Singular Indikativ Singular Singular Singular
maskulinum maskulinum Präsens neutrum neutrum neutrum

Bei Betrachtung der Wortarten weist der zweite Satz eine größere Übereinstimmung zum Lückentext auf als der erste, demnach schlägt das System die Wortart Verb, 3. Person Plural, Indikativ, Präsens zur Ergänzung vor. Damit wurde nicht nur ein korrektes Ergebnis erzielt, sondern zugleich eine Verallgemeinerung der Lösung auf syntaktischer Ebene. Gleichzeitig ist aber semantische Information verloren gegangen, da das System nun gleichermaßen alle Wörter dieser Wortart vorschlägt, also etwa auch lernen, schreiben etc. Um hier eine Rangfolge zu bilden, könnte nun an dieser Stelle ein Matching auf Wortebene durchgeführt werden (vergl. Kapitel gif). Eine statistisch bessere Absicherung läßt sich erzielen, wenn die Rangfolge zusätzlich auf Grund der assoziativen Ähnlichkeit zu den Wörtern des Kontextes (vergl. Kapitel gif) beeinflußt wird.




next up previous contents index
Next: Programme für die automatische Up: No Title Previous: Zusammenfassung und Ausblick

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997