next up previous contents index
Next: Erstellung eines syntaktisch annotierten Up: Kontextorientierte Wortartenbestimmung Previous: Definition der Wortarten für

Ein Ansatz zur maschinellen Erstellung eines Wortartensystems

 

Die Entwicklung von Wortartensystemen ist schwierig und zeitaufwendig. Die derzeit verwendeten Systeme beruhen auf der Arbeit von Generationen von Sprachwissenschaftlern. Eric Atwell unternahm den Versuch, durch die Analyse von Wortnachbarschaften  in Korpora ein Wortklassensystem maschinell zu erstellen (vergl. Garside, Leech & Sampson, 1987, S. 132). Dieser noch rudimentäre Ansatz wurde im Rahmen der vorliegenden Arbeit aufgegriffen und weiterentwickelt. Erst in jüngster Zeit findet man weitere Arbeiten, bei denen es auch um die maschinelle Generierung eines Wortklassensystems geht (Brown et al., 1992; Kneser & Ney, 1993; Rapp, im Druck; Schütze, 1993b). Diese Arbeiten beruhen ebenfalls auf der Analyse von Wortnachbarschaften in Textkorpora.

Bei den hier betrachteten syntaktisch definierten Wortartensystemen sollen solche Wörter zusammengefaßt werden, die in einem Satz dieselbe syntaktische Funktion erfüllen können. Kann eine Wortform die Funktion einer anderen Wortform übernehmen, heißt dies, daß sie in einem Satz deren Position einnehmen kann, ohne daß die syntaktische Richtigkeit des Satzes beeinträchtigt wird. Umgekehrt muß aber nicht jede Wortform, die an einer bestimmten Position im Satz eingesetzt werden kann, zur selben Wortart gehören, wie das ersetzte Wort. (Beispiel: ``das ist Kuchen'' versus ``das ist gut''.) Dennoch liegt die Vermutung nahe, daß bei Satzpaaren, die sich nur in einem Wort unterscheiden, die beiden unterschiedlichen Wörter häufig derselben Wortklasse angehören werden.

Diese Vermutung wurde anhand einer etwa 12 Millionen Wortformen umfassenden Textsammlung überprüft, die aus den Handbuchkorpora  85, 86 und 87, dem Mannheimer Korpus 1 sowie dem Freiburger Korpus  zusammengestellt wurde (vergl. Kapitel gif). Im folgenden einige diesem Korpus entnommene Beispiele für Satzpaare , die sich nur in einem Wort unterscheiden.

Das kann -1exich
sie aber nicht.

Was soll -1exich
Goethe tun?

Das Gegenteil -1exist
war der Fall.

Damit war der -1exIngenieur
Arbeitslose nicht einverstanden.

Die Zeit der -1exProvokationen
Vereinfachung ist vorbei.

Er wird zum -1exübernächsten
nächsten Sachbearbeiter geschickt.

Hübsch ist es -1exauf
unter dem Floß.

Wo ist die -1exMalerei
Avantgarde geblieben?

Dies wollte der -1exMechaniker
Pächter nicht hinnehmen.

Nimm dir für -1exFreitag
Donnerstag viel vor.

Was kann man -1exalso
dagegen tun?

Gibt es da -1exwirklich
doch Unterschiede?

Doch so einfach -1exgeht
ist das nicht.

Das ist leichter -1exgedacht
gesagt als getan.

Das ist doch -1exUnsinn
unmöglich!

Das hat es -1exlange
bisher nicht gegeben.

Das hat sich -1exmittlerweile
nun gründlich geändert.

Hat er das -1exgesagt
verdient?

Offenbar werden in den meisten Fällen Paare gefunden, bei denen die Zusammengehörigkeit zu einer Wortklasse plausibel erscheint. Betrachtet man jedoch, wie viele sich in einem Wort unterscheidende Satzpaare es gibt, so stellt man fest, daß sich auf diese Art bei einer Gesamtzahl von 714 097 Sätzen nur etwa 100 000 unterschiedliche Wortpaare extrahieren lassen (vergl. Tabelle gif und Abb. gif). Der überwiegende Teil dieser Wortpaare ergibt sich durch den Vergleich sehr kurzer Sätze. Kurze Sätze liefern aber die am wenigsten zuverlässigen Paare. Wegen dieser Schwierigkeiten wurde der Versuch aufgegeben, ganze Sätze zu matchen.

Ein alternativer Ansatz geht davon aus, daß Wörter, die derselben Wortart angehören, in Texten häufig gleichartige Vorgänger- und Nachfolger-Wörter haben. Das heißt, die Verteilung der Nachbarwörter sollte für alle Vertreter einer Wortart ähnlich sein.gif Um dies zu überprüfen, wurde ein auf Bigrammen basierendes Verfahren entwickelt: Zunächst wurde ein Vokabular definiert, das alle im Korpus vorkommenden Wortformen enthielt, insgesamt 450 960 Wörter. Für jedes Wort tex2html_wrap_inline25297 wurde ein Vektor angelegt, der die doppelte Anzahl von Einträgen aufweist, also 901 920 (vergl. Tabelle gif).gif

 

W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 W11 W12
L3 44997 28204 6
L4 3156 6122 7269 5
L5 1378 3381 1070 1175 4
L6 3569 147 284 217 309 2
L7 59 2382 52 52 86 103 3
L8 198 39 101 13 27 28 46 1
L9 539 81 18 66 8 8 41 14 1
L10 7 10 6 6 247 2 4 35 18 0
L11 7 7 4 18 19 27 3 4 13 9 1
L12 6 3 3 2 24 3 9 1 4 3 19 1
Tabelle: Anzahl von Satzpaaren der Länge tex2html_wrap_inline25561 , die sich nur an Wortposition tex2html_wrap_inline25563 unterscheiden. Mehrfach auftretende identische Satzpaare werden einfach gezählt. Satzzeichen werden wie Wörter behandelt.

 

   figure17091
Abbildung: Häufigkeiten H von Sätzen der Länge L Wörter.

In diesem Vektor sind für tex2html_wrap_inline25297 die Häufigkeiten aller im Korpus vorkommenden Vorgänger- und Nachfolger-Wörter eingetragen, jeweils dividiert durch die Korpushäufigkeit von tex2html_wrap_inline25297 . Die Ersetzbarkeit E  zweier Wörter ist nun als die Summe der Beträge der Differenzen einander entsprechender Vektorpositionen definiert:

  equation17443

Um festzustellen, welche anderen Wörter die syntaktische Position eines Wortes tex2html_wrap_inline25297 einnehmen können, muß für jedes Wort eines Vokabulares der Wert für die Ersetzbarkeit E berechnet werden. Die Wörter werden anschließend durch Sortieren nach E in eine Rangfolge gebracht. Das Wort mit dem kleinsten Wert kann am ehesten die syntaktische Funktion von tex2html_wrap_inline25297 übernehmen.

 

Vorgänger Nachfolger
Wort 1 2 3 4 5 1 2 3 4 5
1 tex2html_wrap_inline25585 tex2html_wrap_inline25587 tex2html_wrap_inline25589 tex2html_wrap_inline25591 tex2html_wrap_inline25593 tex2html_wrap_inline25585 tex2html_wrap_inline25597 tex2html_wrap_inline25599 tex2html_wrap_inline25601 tex2html_wrap_inline25603
2 tex2html_wrap_inline25597 tex2html_wrap_inline25607 tex2html_wrap_inline25609 tex2html_wrap_inline25611 tex2html_wrap_inline25613 tex2html_wrap_inline25587 tex2html_wrap_inline25607 tex2html_wrap_inline25619 tex2html_wrap_inline25621 tex2html_wrap_inline25623
3 tex2html_wrap_inline25599 tex2html_wrap_inline25619 tex2html_wrap_inline25629 tex2html_wrap_inline25631 tex2html_wrap_inline25633 tex2html_wrap_inline25589 tex2html_wrap_inline25609 tex2html_wrap_inline25629 tex2html_wrap_inline25641 tex2html_wrap_inline25643
4 tex2html_wrap_inline25601 tex2html_wrap_inline25621 tex2html_wrap_inline25641 tex2html_wrap_inline25651 tex2html_wrap_inline25653 tex2html_wrap_inline25591 tex2html_wrap_inline25611 tex2html_wrap_inline25631 tex2html_wrap_inline25651 tex2html_wrap_inline25663
5 tex2html_wrap_inline25603 tex2html_wrap_inline25623 tex2html_wrap_inline25643 tex2html_wrap_inline25663 tex2html_wrap_inline25673 tex2html_wrap_inline25593 tex2html_wrap_inline25613 tex2html_wrap_inline25633 tex2html_wrap_inline25653 tex2html_wrap_inline25673
Tabelle: Matrix der Übergangswahrscheinlichkeiten  zwischen Wörtern eines Vokabulars von fünf Wörtern. In jeder Zeile ist für ein bestimmtes Wort des Vokabulars angegeben, mit welcher relativen Häufigkeit tex2html_wrap_inline25685 ( tex2html_wrap_inline25687 ) die übrigen Wörter des Vokabulars als Vorgänger bzw. Nachfolger dieses Wortes auftreten.

 

Werden beispielsweise alle Wörter eines Vokabulars danach in eine Rangfolge gebracht, wie ähnlich ihre Häufigkeitsverteilung bezüglich Vorgängern und Nachfolgern zu der des Wortes Tisch ist, so ergibt sich die in Tabelle gif dargestellte Liste. Offenbar erhalten Wortformen, die maskuline Substantive im Nominativ sein können, vordere Rangplätze. Ihrer Vorgänger/Nachfolger-Häufigkeitsverteilung ist beispielsweise gemeinsam, daß Artikel wie der oder ein häufige Vorgänger und Verben wie ist oder hat häufige Nachfolger sind. In Tabelle gif sind für einige Wortformen entsprechende Wortlisten der jeweils 20 Wörter mit der besten Ersetzbarkeit aufgelistet (sortiert nach zunehmenden Werten für E).

 

Rang Korpus- E Wort
häufigk.
1 1949 1,898 Kopf
2 542 1,909 Mund
3 340 1,931 Hals
4 131 1,986 Abgrund
5 1326 1,991 Markt
6 517 2,035 Rücken
7 222 2,044 Schreibtisch
8 195 2,054 Bauch
9 153 2,059 Teppich
10 128 2,071 Zaun
11 454 2,071 Arm
12 1640 2,076 Boden
13 468 2,079 Hof
14 280 2,134 Bildschirm
15 123 2,160 Schrank
16 110 2,195 Schoß
17 916 2,203 Himmel
18 214 2,215 Stuhl
19 338 2,229 Fluß
20 888 2,242 Frieden
Tabelle: Wörter mit hoher Ersetzbarkeit bezüglich Tisch (Korpushäufigkeit: 889).

 

 

auf an in über mit durch unter aus für vor um nach bei gegen von
auch hinter als nur gegenüber neben
bitten lernen schreiben denken holen suchen erzählen erleben lachen
erfahren sagen begrüßen zwingen wagen lehren drücken hören
reden verstehen trinken entdecken
gegessen getrunken gelesen gekauft getan geredet gerettet erworben gesungen
gelebt gelernt geliebt nachgedacht gewagt versprochen wahrgenommen
geheiratet gewonnen abgenommen gearbeitet verstanden
hell weich jung blaß dunkel hübsch naiv kalt arm grau warm dünn kom-
pliziert still aggressiv dick klein langweilig heiß bunt nüchtern
Müller Schmidt Fischer Meyer Hoffmann Wagner Schiller Schneider Koch
Berlin Klein Becker Hartmann Franke Hannover Weber Schmitt
Schäfer Bauer Brandt Nürnberg
Thomas Peter Michael Klaus Herbert Franz Karl Hermann Stephan Alexander
Sabine Richard Robert Hans Claus Heinrich Bernd Stefan Jan Rainer
Gustav
Tisches Stücks Abends Bundes Friedens Autors Krieges Staates Alltags
Verbandes Bundesverfassungsgerichts Arbeitsamtes Arztes Wortes
Bundeskanzlers Abendlandes Ministeriums Ministers Westens Rheins
Geschehens
schneller besser stärker billiger größer älter leichter mehr höher schlimmer
rascher tiefer teurer weiter schwieriger länger deutlicher weniger
einfacher schwerer langsamer
zwei drei vier fünf sechs acht sieben zwölf neun zehn elf zwanzig fünf-
zehn vierzehn dreißig vierzig fünfzig dreizehn eineinhalb mehrere
zweieinhalb
Tabelle: Wörter mit ähnlicher Häufigkeitsverteilung der direkten Nachbarn.

 

Das Wort bevor wird von Bergenholtz & Schaeder (1977) zusammen mit weiteren 77 Wörtern als ``hypotaktische Konjunkion''  klassifiziert. Von diesen 77 Wörtern treten immerhin 34 auf den vordersten 50 Rangplätzen der syntaktisch ähnlichsten Wörter zu bevor auf (vergl. Tabelle gif).

 

E Wort E Wort
tex2html_wrap_inline24180 0,882 ehe tex2html_wrap_inline24180 1,694 zumal
tex2html_wrap_inline24180 1,183 weil 1,694 was
tex2html_wrap_inline24180 1,184 nachdem tex2html_wrap_inline24180 1,719 wodurch
tex2html_wrap_inline24180 1,205 sobald tex2html_wrap_inline24180 1,762 inwieweit
tex2html_wrap_inline24180 1,215 wenn tex2html_wrap_inline24180 1,800 soweit
tex2html_wrap_inline24180 1,233 ob tex2html_wrap_inline24180 1,913 woher
tex2html_wrap_inline24180 1,258 obwohl 1,921 sagt
tex2html_wrap_inline24180 1,261 falls tex2html_wrap_inline24180 1,968 wozu
1,302 obgleich tex2html_wrap_inline24180 1,980 wonach
tex2html_wrap_inline24180 1,333 womit 2,013 welches
tex2html_wrap_inline24180 1,341 wo 2,014 welche
tex2html_wrap_inline24180 1,355 sofern 2,017 sagte
tex2html_wrap_inline24180 1,468 worin 2,086 meint
tex2html_wrap_inline24180 1,496 wofür tex2html_wrap_inline24180 2,087 warum
tex2html_wrap_inline24180 1,499 weshalb 2,124 anstatt
tex2html_wrap_inline24180 1,511 indem 2,125 antwortete
tex2html_wrap_inline24180 1,520 wovon 2,129 darunter
tex2html_wrap_inline24180 1,523 worauf 2,142 erwiderte
tex2html_wrap_inline24180 1,526 daß tex2html_wrap_inline24180 2,163 wann
tex2html_wrap_inline24180 1,546 solange tex2html_wrap_inline24180 2,182 während
tex2html_wrap_inline24180 1,650 wobei tex2html_wrap_inline24180 2,194 wie
tex2html_wrap_inline24180 1,657 woran 2,254 denn
tex2html_wrap_inline24180 1,658 obschon 2,267 meinte
1,659 wenngleich 2,269 kommentiert
tex2html_wrap_inline24180 1,676 wohin 2,287 klagt
Tabelle: Wörter mit hoher Ersetzbarkeit bezüglich bevor. Wörter, die bei Bergenholtz & Schaeder als hypotaktische Konjunkion klassifiziert sind, sind mit `` tex2html_wrap_inline24180 '' markiert.

 

Offenbar ist dieses Ähnlichkeitsmaß recht brauchbar. Naheliegend wäre es, damit einen Clustering-Algorithmus  zu entwickeln, der eine automatische Wortarteneinteilung vornimmt. Leider ist der Rechenaufwand so hoch, daß dieses Vorhaben bislang nicht realisiert werden konnte. Einige Überlegungen seien aber im folgenden skizziert. Tabelle gif zeigt die Struktur einer Matrix der Übergangswahrscheinlichkeiten zwischen Wörtern. Unter der Annahme, daß Wörter, die an denselben Wortpositionen Spitzenwerte aufweisen, zur selben Wortklasse gehören, können solche Paare von Zeilen zusammengefaßt werden. Präziser ausgedrückt: In der Matrix werden jeweils die beiden Zeilen i und j zusammengefaßt, die eine möglichst hohe Ersetzbarkeit aufweisen, für die der Wert für E (siehe Gleichung gif) also minimal ist. Die resultierende Zeile ergibt sich dabei durch Mittelung der korrespondierenden Positionen der Zeilen i und j. Als Ende-Kriterium liegt es nahe, einen Schwellwert für E anzunehmen, der nicht überschritten werden darf.

Mit dem bislang geschilderten Verfahren werden mehrdeutige Wörter, beispielsweise meinen, das sowohl Verb als auch Possessivpronomen sein kann, mit solchen anderen Wörtern zu einer Klasse zusammengefaßt, die dieselbe Ambiguität  aufweisen. Diese Mehrdeutigkeit läßt sich prinzipiell jedoch algorithmisch feststellen. Man untersucht hierzu, ob sich die Spitzenwerte einer Zeile m der Matrix durch Summation zweier (oder mehrerer) anderer Matrixzeilen bilden lassen. Ist dies der Fall kann angenommen werden, daß die der Zeile m zugeordneten Wörter mehrdeutig sind und sich den Klassen der den gefundenen Zeilen zugehörigen Wörter zuordnen lassen.

Abschließend noch die Skizze eines alternativen und möglicherweise erfolgversprechenderen Ansatzes zur maschinellen Wortklassifizierung , der die Wortartenzuordnung mit dem Taggen eines Textes verknüpft:

  1. Vorgegeben werden ein Textkorpus, ein fester Wert für die Anzahl der gewünschten Wortarten (z. B. 200) und die Länge der zu betrachtenden Wortartentupel (z. B. Bigramme).
  2. Jede Wortform des im Textkorpus enthaltenen Vokabulares wird in zufälliger Weise genau einer Wortart zugeordnet, d. h. es wird eine zufällige Wort/Tag-Liste erstellt, bei der jeder Wortform genau ein Tag zugeordnet wird.
  3. Das Textkorpus wird mit Tags versehen. Dies ist trivial, da die Wort/Tag-Liste eindeutig ist. Es wird gezählt, wie viele unterschiedliche Wortartentupel im Korpus auftreten. Die erhaltene Anzahl werde mit V bezeichnet.
  4. Zudem wird ausgezählt, wie viele Wortartentupel es gibt, bei denen eine Wortart auf sich selbst folgt. Dieser Wert werde mit Z bezeichnet.
  5. Es wird das Produkt tex2html_wrap_inline25787 gebildet. Falls die Schleife schon öfter als einmal durchlaufen wurde: Ist der berechnete Wert größer als der im letzten Durchlauf erhaltene, wird die Änderung der Wortartenzuordnung rückgängig gemacht.
  6. Eine Wortform wird mit Hilfe eines Zufallsgenerators einer anderen Wortart zugeordnet.
  7. Falls sich in den letzten 100 Schleifendurchläufen mindestens einmal eine Verkleinerung des Produkts tex2html_wrap_inline25787 ergeben hat, zurück nach 3.

Dieser Algorithmus bewirkt, daß jeder Wortform diejenige Wortart zugeordnet wird, die zu einer Minimierung der Anzahl unterschiedlicher Worttupel führt. Bei Betrachtung von Wortartenbigrammen und einer Darstellung in Matrixform entsprechend Tabelle gif werden die einzelnen Matrixpositionen zu Beginn mit zufälligen Werten besetzt. Mit dem Fortschreiten des Algorithmus bilden sich immer deutlicher werdende Maxima und Minima aus. Unerwünschte Trivialfälle, nämlich daß alle Wortformen einer oder nur wenigen Wortarten zugeordnet werden, werden durch die Bedingung, daß eine Wortart in der Regel nicht zwei mal hintereinander auftreten darf, vermieden. Diese auf den ersten Blick etwas problematische Bedingung läßt sich insofern rechtfertigen, als etwa in einer von Bergenholtz & Schaeder (1977, S. 155) erstellten Matrix zulässiger Wortartenübergänge Folgen gleicher Wortarten eher selten sind. Zudem kann es durchaus zweckmäßig sein, etwa bei Folgen von Adjektiven oder Substantiven die jeweilige Position in der Folge durch die Vergabe unterschiedlicher Wortarten zu berücksichtigen.

Im bestmöglichen Fall wird der bislang beschriebene Algorithmus jeder Wortform diejenige Wortart zuordnen, die in der Mehrzahl der Auftretenspositionen im Text angemessen ist. Hingegen wird nicht berücksichtigt, daß mehrdeutigen Wortformen in Abhängigkeit vom Kontext unterschiedliche Wortarten zugeordnet werden müssen. Dem kann aber durch eine Erweiterung des Algorithmus Rechnung getragen werden. In einem zusätzlichen Schritt werden zunächst alle seltenen Wortartentupel (beispielsweise alle Tupel der Länge fünf, die eine bestimmte Mindestkorpushäufigkeit nicht erreichen) ermittelt. Anschließend wird versucht, diese dadurch in häufigere Wortartentupel umzuwandeln, daß einem der beteiligten Wörter eine alternative Wortart zugeordnet wird. Bei der Durchführung einer solchen Optimierung muß aber darauf geachtet werden, daß die Anzahl der Wortarten, die einer Wortform zugeordnet werden können, nicht übermäßig zunimmt. Dies könnte dadurch geschehen, daß das Produkt aus der Anzahl der unterschiedlichen Worttupel multipliziert mit der Gesamtzahl aller vorkommenden Wortartenzuordnungen minimiert wird.


next up previous contents index
Next: Erstellung eines syntaktisch annotierten Up: Kontextorientierte Wortartenbestimmung Previous: Definition der Wortarten für

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997