Die Entwicklung von Wortartensystemen ist schwierig und zeitaufwendig. Die derzeit verwendeten Systeme beruhen auf der Arbeit von Generationen von Sprachwissenschaftlern. Eric Atwell unternahm den Versuch, durch die Analyse von Wortnachbarschaften in Korpora ein Wortklassensystem maschinell zu erstellen (vergl. Garside, Leech & Sampson, 1987, S. 132). Dieser noch rudimentäre Ansatz wurde im Rahmen der vorliegenden Arbeit aufgegriffen und weiterentwickelt. Erst in jüngster Zeit findet man weitere Arbeiten, bei denen es auch um die maschinelle Generierung eines Wortklassensystems geht (Brown et al., 1992; Kneser & Ney, 1993; Rapp, im Druck; Schütze, 1993b). Diese Arbeiten beruhen ebenfalls auf der Analyse von Wortnachbarschaften in Textkorpora.
Bei den hier betrachteten syntaktisch definierten Wortartensystemen sollen solche Wörter zusammengefaßt werden, die in einem Satz dieselbe syntaktische Funktion erfüllen können. Kann eine Wortform die Funktion einer anderen Wortform übernehmen, heißt dies, daß sie in einem Satz deren Position einnehmen kann, ohne daß die syntaktische Richtigkeit des Satzes beeinträchtigt wird. Umgekehrt muß aber nicht jede Wortform, die an einer bestimmten Position im Satz eingesetzt werden kann, zur selben Wortart gehören, wie das ersetzte Wort. (Beispiel: ``das ist Kuchen'' versus ``das ist gut''.) Dennoch liegt die Vermutung nahe, daß bei Satzpaaren, die sich nur in einem Wort unterscheiden, die beiden unterschiedlichen Wörter häufig derselben Wortklasse angehören werden.
Diese Vermutung wurde anhand einer etwa 12 Millionen Wortformen
umfassenden Textsammlung überprüft, die aus den Handbuchkorpora
85, 86 und 87, dem Mannheimer Korpus 1 sowie dem Freiburger Korpus
zusammengestellt wurde (vergl. Kapitel
). Im folgenden einige
diesem Korpus entnommene Beispiele für Satzpaare , die sich
nur in einem Wort unterscheiden.
Das kann -1exich
sie aber nicht.
Was soll -1exich
Goethe tun?
Das Gegenteil -1exist
war der Fall.
Damit war der -1exIngenieur
Arbeitslose nicht einverstanden.
Die Zeit der -1exProvokationen
Vereinfachung ist vorbei.
Er wird zum -1exübernächsten
nächsten Sachbearbeiter geschickt.
Hübsch ist es -1exauf
unter dem Floß.
Wo ist die -1exMalerei
Avantgarde geblieben?
Dies wollte der -1exMechaniker
Pächter nicht hinnehmen.
Nimm dir für -1exFreitag
Donnerstag viel vor.
Was kann man -1exalso
dagegen tun?
Gibt es da -1exwirklich
doch Unterschiede?
Doch so einfach -1exgeht
ist das nicht.
Das ist leichter -1exgedacht
gesagt als getan.
Das ist doch -1exUnsinn
unmöglich!
Das hat es -1exlange
bisher nicht gegeben.
Das hat sich -1exmittlerweile
nun gründlich geändert.
Hat er das -1exgesagt
verdient?
Offenbar werden in den meisten Fällen
Paare gefunden, bei denen die Zusammengehörigkeit zu
einer Wortklasse plausibel erscheint. Betrachtet man jedoch,
wie viele sich in einem Wort unterscheidende Satzpaare es gibt,
so stellt man fest, daß sich auf diese Art bei einer
Gesamtzahl von 714 097 Sätzen nur etwa
100 000 unterschiedliche
Wortpaare extrahieren lassen (vergl. Tabelle
und
Abb.
). Der überwiegende Teil dieser Wortpaare
ergibt sich durch den Vergleich sehr kurzer Sätze.
Kurze Sätze liefern aber die am wenigsten zuverlässigen Paare.
Wegen dieser Schwierigkeiten wurde der Versuch aufgegeben, ganze Sätze
zu matchen.
Ein alternativer Ansatz geht davon aus, daß Wörter,
die derselben Wortart angehören, in Texten häufig
gleichartige Vorgänger- und Nachfolger-Wörter haben.
Das heißt, die Verteilung der Nachbarwörter sollte
für alle Vertreter einer Wortart ähnlich sein.
Um dies zu überprüfen, wurde
ein auf Bigrammen basierendes Verfahren entwickelt:
Zunächst wurde ein Vokabular definiert, das alle im Korpus vorkommenden
Wortformen enthielt, insgesamt 450 960 Wörter. Für jedes
Wort
wurde ein Vektor angelegt, der die doppelte Anzahl
von Einträgen aufweist, also 901 920
(vergl. Tabelle
).
| W1 | W2 | W3 | W4 | W5 | W6 | W7 | W8 | W9 | W10 | W11 | W12 | |
| L3 | 44997 | 28204 | 6 | |||||||||
| L4 | 3156 | 6122 | 7269 | 5 | ||||||||
| L5 | 1378 | 3381 | 1070 | 1175 | 4 | |||||||
| L6 | 3569 | 147 | 284 | 217 | 309 | 2 | ||||||
| L7 | 59 | 2382 | 52 | 52 | 86 | 103 | 3 | |||||
| L8 | 198 | 39 | 101 | 13 | 27 | 28 | 46 | 1 | ||||
| L9 | 539 | 81 | 18 | 66 | 8 | 8 | 41 | 14 | 1 | |||
| L10 | 7 | 10 | 6 | 6 | 247 | 2 | 4 | 35 | 18 | 0 | ||
| L11 | 7 | 7 | 4 | 18 | 19 | 27 | 3 | 4 | 13 | 9 | 1 | |
| L12 | 6 | 3 | 3 | 2 | 24 | 3 | 9 | 1 | 4 | 3 | 19 | 1 |
Abbildung: Häufigkeiten H von Sätzen der Länge L Wörter.
In diesem Vektor
sind für
die Häufigkeiten aller im Korpus vorkommenden
Vorgänger- und Nachfolger-Wörter eingetragen, jeweils
dividiert durch die Korpushäufigkeit von
.
Die Ersetzbarkeit E zweier Wörter ist nun als die
Summe der Beträge der Differenzen einander entsprechender
Vektorpositionen definiert:
Um festzustellen, welche anderen Wörter die syntaktische
Position eines Wortes
einnehmen können,
muß für jedes Wort eines Vokabulares der Wert für die Ersetzbarkeit E
berechnet werden. Die Wörter werden anschließend
durch Sortieren nach E in eine Rangfolge gebracht. Das Wort mit dem
kleinsten Wert kann am ehesten die syntaktische Funktion
von
übernehmen.
Werden beispielsweise alle Wörter eines Vokabulars danach in
eine Rangfolge gebracht, wie ähnlich ihre Häufigkeitsverteilung
bezüglich Vorgängern und Nachfolgern zu der des Wortes Tisch ist,
so ergibt sich die in Tabelle
dargestellte Liste.
Offenbar erhalten Wortformen, die maskuline Substantive im Nominativ
sein können, vordere Rangplätze. Ihrer
Vorgänger/Nachfolger-Häufigkeitsverteilung ist beispielsweise
gemeinsam, daß Artikel wie der oder ein häufige Vorgänger
und Verben wie ist oder hat häufige Nachfolger sind.
In Tabelle
sind für einige Wortformen entsprechende
Wortlisten der jeweils 20 Wörter mit der besten Ersetzbarkeit
aufgelistet (sortiert nach zunehmenden Werten für E).
| Rang | Korpus- | E | Wort |
| häufigk. | |||
| 1 | 1949 | 1,898 | Kopf |
| 2 | 542 | 1,909 | Mund |
| 3 | 340 | 1,931 | Hals |
| 4 | 131 | 1,986 | Abgrund |
| 5 | 1326 | 1,991 | Markt |
| 6 | 517 | 2,035 | Rücken |
| 7 | 222 | 2,044 | Schreibtisch |
| 8 | 195 | 2,054 | Bauch |
| 9 | 153 | 2,059 | Teppich |
| 10 | 128 | 2,071 | Zaun |
| 11 | 454 | 2,071 | Arm |
| 12 | 1640 | 2,076 | Boden |
| 13 | 468 | 2,079 | Hof |
| 14 | 280 | 2,134 | Bildschirm |
| 15 | 123 | 2,160 | Schrank |
| 16 | 110 | 2,195 | Schoß |
| 17 | 916 | 2,203 | Himmel |
| 18 | 214 | 2,215 | Stuhl |
| 19 | 338 | 2,229 | Fluß |
| 20 | 888 | 2,242 | Frieden |
| auf | an in über mit durch unter aus für vor um nach bei gegen von |
| auch hinter als nur gegenüber neben | |
| bitten | lernen schreiben denken holen suchen erzählen erleben lachen |
| erfahren sagen begrüßen zwingen wagen lehren drücken hören | |
| reden verstehen trinken entdecken | |
| gegessen | getrunken gelesen gekauft getan geredet gerettet erworben gesungen |
| gelebt gelernt geliebt nachgedacht gewagt versprochen wahrgenommen | |
| geheiratet gewonnen abgenommen gearbeitet verstanden | |
| hell | weich jung blaß dunkel hübsch naiv kalt arm grau warm dünn kom- |
| pliziert still aggressiv dick klein langweilig heiß bunt nüchtern | |
| Müller | Schmidt Fischer Meyer Hoffmann Wagner Schiller Schneider Koch |
| Berlin Klein Becker Hartmann Franke Hannover Weber Schmitt | |
| Schäfer Bauer Brandt Nürnberg | |
| Thomas | Peter Michael Klaus Herbert Franz Karl Hermann Stephan Alexander |
| Sabine Richard Robert Hans Claus Heinrich Bernd Stefan Jan Rainer | |
| Gustav | |
| Tisches | Stücks Abends Bundes Friedens Autors Krieges Staates Alltags |
| Verbandes Bundesverfassungsgerichts Arbeitsamtes Arztes Wortes | |
| Bundeskanzlers Abendlandes Ministeriums Ministers Westens Rheins | |
| Geschehens | |
| schneller | besser stärker billiger größer älter leichter mehr höher schlimmer |
| rascher tiefer teurer weiter schwieriger länger deutlicher weniger | |
| einfacher schwerer langsamer | |
| zwei | drei vier fünf sechs acht sieben zwölf neun zehn elf zwanzig fünf- |
| zehn vierzehn dreißig vierzig fünfzig dreizehn eineinhalb mehrere | |
| zweieinhalb |
Das Wort bevor wird von Bergenholtz & Schaeder (1977) zusammen mit
weiteren 77 Wörtern als ``hypotaktische Konjunkion'' klassifiziert.
Von diesen 77 Wörtern treten immerhin 34 auf den vordersten
50 Rangplätzen der syntaktisch ähnlichsten Wörter zu bevor
auf (vergl. Tabelle
).
| E | Wort | E | Wort | ||
| | 0,882 | ehe | | 1,694 | zumal |
|
| 1,183 | weil | 1,694 | was | |
|
| 1,184 | nachdem | | 1,719 | wodurch |
|
| 1,205 | sobald | | 1,762 | inwieweit |
|
| 1,215 | wenn | | 1,800 | soweit |
|
| 1,233 | ob | | 1,913 | woher |
|
| 1,258 | obwohl | 1,921 | sagt | |
|
| 1,261 | falls | | 1,968 | wozu |
| 1,302 | obgleich | | 1,980 | wonach | |
|
| 1,333 | womit | 2,013 | welches | |
|
| 1,341 | wo | 2,014 | welche | |
|
| 1,355 | sofern | 2,017 | sagte | |
|
| 1,468 | worin | 2,086 | meint | |
|
| 1,496 | wofür | | 2,087 | warum |
|
| 1,499 | weshalb | 2,124 | anstatt | |
|
| 1,511 | indem | 2,125 | antwortete | |
|
| 1,520 | wovon | 2,129 | darunter | |
|
| 1,523 | worauf | 2,142 | erwiderte | |
|
| 1,526 | daß | | 2,163 | wann |
|
| 1,546 | solange | | 2,182 | während |
|
| 1,650 | wobei | | 2,194 | wie |
|
| 1,657 | woran | 2,254 | denn | |
|
| 1,658 | obschon | 2,267 | meinte | |
| 1,659 | wenngleich | 2,269 | kommentiert | ||
|
| 1,676 | wohin | 2,287 | klagt |
Offenbar ist dieses Ähnlichkeitsmaß recht brauchbar.
Naheliegend wäre es, damit einen Clustering-Algorithmus
zu entwickeln, der eine automatische Wortarteneinteilung
vornimmt. Leider ist der Rechenaufwand so hoch, daß dieses
Vorhaben bislang nicht realisiert werden konnte.
Einige Überlegungen seien aber im folgenden skizziert.
Tabelle
zeigt die Struktur einer Matrix der
Übergangswahrscheinlichkeiten zwischen Wörtern.
Unter der Annahme, daß Wörter, die an denselben Wortpositionen
Spitzenwerte aufweisen, zur selben Wortklasse gehören,
können solche Paare von Zeilen zusammengefaßt werden. Präziser
ausgedrückt: In der Matrix werden jeweils die beiden Zeilen i und j
zusammengefaßt, die eine möglichst hohe Ersetzbarkeit aufweisen,
für die der Wert für E (siehe Gleichung
)
also minimal ist. Die resultierende Zeile ergibt sich
dabei durch Mittelung der korrespondierenden Positionen der
Zeilen i und j.
Als Ende-Kriterium liegt es nahe, einen Schwellwert für
E anzunehmen, der nicht überschritten werden darf.
Mit dem bislang geschilderten Verfahren werden mehrdeutige Wörter, beispielsweise meinen, das sowohl Verb als auch Possessivpronomen sein kann, mit solchen anderen Wörtern zu einer Klasse zusammengefaßt, die dieselbe Ambiguität aufweisen. Diese Mehrdeutigkeit läßt sich prinzipiell jedoch algorithmisch feststellen. Man untersucht hierzu, ob sich die Spitzenwerte einer Zeile m der Matrix durch Summation zweier (oder mehrerer) anderer Matrixzeilen bilden lassen. Ist dies der Fall kann angenommen werden, daß die der Zeile m zugeordneten Wörter mehrdeutig sind und sich den Klassen der den gefundenen Zeilen zugehörigen Wörter zuordnen lassen.
Abschließend noch die Skizze eines alternativen und möglicherweise erfolgversprechenderen Ansatzes zur maschinellen Wortklassifizierung , der die Wortartenzuordnung mit dem Taggen eines Textes verknüpft:
Dieser Algorithmus bewirkt, daß jeder Wortform diejenige
Wortart zugeordnet wird, die zu einer Minimierung der Anzahl
unterschiedlicher Worttupel führt. Bei Betrachtung von
Wortartenbigrammen und einer Darstellung in Matrixform
entsprechend Tabelle
werden die einzelnen
Matrixpositionen zu Beginn mit zufälligen Werten besetzt.
Mit dem Fortschreiten des Algorithmus bilden sich immer
deutlicher werdende Maxima und Minima aus. Unerwünschte
Trivialfälle, nämlich daß alle Wortformen einer oder nur
wenigen Wortarten zugeordnet werden, werden durch die
Bedingung, daß eine Wortart in der Regel nicht zwei mal
hintereinander auftreten darf, vermieden. Diese auf den
ersten Blick etwas problematische Bedingung
läßt sich insofern rechtfertigen, als etwa in einer
von Bergenholtz & Schaeder (1977, S. 155) erstellten
Matrix zulässiger Wortartenübergänge Folgen gleicher
Wortarten eher selten sind. Zudem kann es durchaus
zweckmäßig sein, etwa bei Folgen von Adjektiven
oder Substantiven die jeweilige Position in der Folge
durch die Vergabe unterschiedlicher Wortarten zu
berücksichtigen.
Im bestmöglichen Fall wird der bislang beschriebene Algorithmus jeder Wortform diejenige Wortart zuordnen, die in der Mehrzahl der Auftretenspositionen im Text angemessen ist. Hingegen wird nicht berücksichtigt, daß mehrdeutigen Wortformen in Abhängigkeit vom Kontext unterschiedliche Wortarten zugeordnet werden müssen. Dem kann aber durch eine Erweiterung des Algorithmus Rechnung getragen werden. In einem zusätzlichen Schritt werden zunächst alle seltenen Wortartentupel (beispielsweise alle Tupel der Länge fünf, die eine bestimmte Mindestkorpushäufigkeit nicht erreichen) ermittelt. Anschließend wird versucht, diese dadurch in häufigere Wortartentupel umzuwandeln, daß einem der beteiligten Wörter eine alternative Wortart zugeordnet wird. Bei der Durchführung einer solchen Optimierung muß aber darauf geachtet werden, daß die Anzahl der Wortarten, die einer Wortform zugeordnet werden können, nicht übermäßig zunimmt. Dies könnte dadurch geschehen, daß das Produkt aus der Anzahl der unterschiedlichen Worttupel multipliziert mit der Gesamtzahl aller vorkommenden Wortartenzuordnungen minimiert wird.