next up previous contents index
Next: Ein Ansatz zur maschinellen Up: Kontextorientierte Wortartenbestimmung Previous: Ein Tagger mit variabler

 

Definition der Wortarten für das Deutsche

 

Angesichts des praktischen Erfolges und der weitreichenden Anwendbarkeit der Tagging-Systeme für die englische Sprache liegt es nahe, eine entsprechende Vorgehensweise auch auf das Deutsche anzuwenden. Mit dem Vorliegen eines englischen und eines deutschen Tagging-Systems könnte dann auch der Einsatz von Taggern bei der maschinellen Übersetzung erprobt werden.

Mit dem LIMAS-Korpus  des Bonner Institutes für Kommunikationsforschung und Phonetik wurde ein deutsches Korpus nach dem Vorbild des Brown-Korpus geschaffen. Dieses wurde jedoch bislang nicht mit Wortarten-Markierungen versehen. Trotz eines vielversprechenden Ansatzes von Wothke et al. (1993) existiert bislang kein mit syntaktischen Tags versehenes deutschsprachiges Korpus größeren Umfanges. Weiterhin scheint keines der öffentlich zugänglichen und ausreichend dokumentierten Wortartensysteme für einen solchen Zweck unmittelbar geeignet zu sein. Auf den Stand der Wortartensysteme für die deutsche Sprache kann hier nicht detailliert eingegangen werden. Eine gute Darstellung findet sich in Bergenholtz und Schaeder (1977, S. 19-45). Dort heißt es:

``Die meisten Arbeiten zur deutschen Sprache, die auf Wortarten eingehen, darunter die meisten deutschen Grammatiken, stehen in der Wortartentradition, die mit Dionysios Thrax anfängt und verwenden eine Mischung morphologischer, semantischer und syntaktischer Kriterien. Mit unserem Beitrag zum Problem der Wortarten möchten wir deutlich machen, daß man nicht umhin kann, Sütterlin (1923, 97) zuzustimmen: `Diese Einteilung ist deswegen (wissenschaftlich) nicht haltbar, weil ihr kein einheitliches Einteilungsmerkmal zugrunde liegt. Bald ist die Form des Wortes, die Flexion oder Beugbarkeit maßgebend ... bald die Bedeutung an sich ... bald seine Bedeutung und Verwendung im Satze ... Man kann aber jeweils nur nach dem einen dieser drei Gesichtspunkte einteilen.' ''
Bergenholtz und Schaeder (1977, S. 42) weisen darauf hin, daß insbesondere bei den Wortartenangaben der geschlossenen Wortarten erhebliche Probleme bestehen. Dies zeigen sie durch den Vergleich von vier Wörterbüchern: Wahrig (1968), Klappenbach und Steinitz (1964 ff.), Paul (1966) und Grebe, Köster & Müller (1970). Tabelle gif faßt die Wortartenangaben zusammen, die Bergenholtz und Schaeder in diesen Wörterbüchern für einige ``recht zufällig'' ausgewählte Wörter aus den geschlossenen Wortarten gefunden haben.

  1.4mm

Wahrig Klappenbach Paul Grebe, Köster
und Steinitz und Müller
als Konjunktion Konjunktion -- temporale
Konjunktion,
Vergleichspartikel
aber Konjunktion, Konjunktion, Konjunktion, Konjunktion,
Adverb, Adverb Adverb Adverb
Interjektion
auch Adverb, Konjunktion -- Adverb
Relativadverb,
Konjunktion
doch Konjunktion, Konjunktion, -- Konjunktion,
Füllwort Adverb Adverb
je Adverb, Adverb, Adverb, Adverb,
Numerale, Konjunktion, Interjektion Konjunktion
Präposition, Präposition
Konjunktion,
Interjektion
so Adverb, Adverb, demonstratives Adverb
Pronomen, Adverb im Übergang Adverb,
Konjunktion zur Konjunktion, Relativpartikel,
Konjunktion Relativpronomen
Tabelle: Vergleich der Wortartenangaben zu sechs Funktionswörtern in vier Wörterbüchern (nach Angaben aus Bergenholtz und Schaeder, 1977).

 

Bergenholtz und Schaeder stellen selbst ein rein syntaktisch orientiertes Wortartensystem  vor, das auf der Grundlage von Textkorpora sehr detailliert ausgearbeitet wurde. Gerade für die kritischen geschlossenen Wortarten  legen sie sich konsequent fest, indem sie zu jeder Wortart eine möglichst vollständige Liste der zugehörigen Wörter angeben.

Dieses Wortartensystem erschien so brauchbar, daß es im Rahmen der vorliegenden Arbeit als Ausgangspunkt für die Entwicklung eines Wortartensystems zum maschinellen Taggen verwendet wurde. Die Definition der Wortarten erfolgt bei Bergenholtz und Schaeder in einheitlicher Weise nach ausschließlich syntaktischen Kriterien und mit gleicher ``Tiefe'', d. h. die Feinheit der Aufteilung ist für alle Wortarten etwa gleichmäßig. Die gewählte Tiefe trägt sicherlich sehr zum Verständnis des Systemes bei, ist jedoch für einen maschinellen Tagger, der z. B. zur Lückentextergänzung eingesetzt werden soll, nicht ausreichend, da bei der Wortarteneinteilung die Flexionsformen der Wörter nicht unterschieden wurden.

Klein (1969, S. 31) hat zwar darauf hingewiesen, daß man bei einer konsequenten Berücksichtigung des gleichartigen Verhaltens von Wörtern im Satz ``... zu einem Labyrinth von Wortklassen ...'' käme, da beispielsweise der und das, gehe und gehst unterschieden werden müßten. Er selbst verwendet ein System von insgesamt 18 Wortarten. Mit Blick auf die Lückentextergänzung, die hier im Vordergrund steht, erscheint aber ein komplexes Wortartensystem unumgänglich.

Im Rahmen dieser Arbeit wurde der Versuch unternommen, möglichst vollständige Listen aller Wörter aufzustellen, die in Texten dieselbe syntaktische Funktion übernehmen können. Daß bei einer stark flektierenden Sprache wie dem Deutschen eine Einteilung in sehr viele verschiedene Wortarten nötig wurde, war unvermeidbar.

Bei der Komplexität des entstehenden Wortartensystems war ein noch konsequenteres Durchhalten einheitlicher Regeln für die Aufteilung der Wörter erforderlich, als dies etwa beim Brown-Korpus praktiziert wurde.gif Die von einem für die Lückentextergänzung geeigneten Wortartensystem idealerweise zu erfüllenden Bedingungen lauten wie folgt:

  1. Wird in einem korrekt annotierten Satz ein Wort durch ein beliebiges anderes Wort ersetzt, das der annotierten Wortart angehört, so bleibt der Satz syntaktisch korrekt.
  2. Eine Wortform kann einer oder mehreren Wortarten angehören.

  3. Die Anzahl der Wortarten soll so klein wie möglich sein.

Diese Bedingungen sollen durch einige sich daraus ergebende Folgerungen erläutert werden:

Aus Gründen der praktischen Durchführbarkeit war es allerdings schließlich doch nicht möglich, alle nach Bedingung 1 eigentlich nötigen Wortartunterscheidungen vorzunehmen. Insbesondere wurde zunächst auf die Berücksichtigung von Verbvalenzen  verzichtet. Hierfür existiert zwar gutes empirisches Material (z. B. Schumacher, 1986). Dieses wurde aber noch nicht einbezogen.

Die Grobgliederung des Wortartensystems wurde von Bergenholtz und Schaeder (1977) übernommen und soll daher an dieser Stelle nicht wiederholt werden. Dort werden für viele Grundwortarten mögliche feinere Unterscheidungen zwar angedeutet, aber nicht umgesetzt. Viele dieser Vorschläge wurden übernommen, andere hinzugefügt. Für die Wörter der geschlossenen Wortarten wurde von den bei Bergenholtz und Schaeder abgedruckten Wortlisten ausgegangen. Diese mußten jedoch entsprechend der größeren Definitionstiefe aufgeteilt werden.

Für die offenen Wortarten (Vollverben, Substantive, Adjektive, Adverbien und Interjektionen) sind bei Bergenholtz und Schaeder keine Wortlisten angeführt. Zur Erstellung von Listen dieser Wortarten wurde auf das Morphologieprogramm Morphy  zurückgegriffen, das fast fehlerlos die Flexionsformen  zu 15 000 Wortstämmen analysiert und zusätzlich in der Lage ist, Komposita zu zerlegen (Lezius, 1992; Stammbauer, 1993).

Eine Liste aller entstandenen Wortarten nebst Beispielsätzen ist in Anhang gif abgedruckt. Dort finden sich auch Wortlisten der geschlossenen Wortarten, für die Vollständigkeit zwar angestrebt, aber nicht erreicht wurde. Für die offenen Wortarten  konnten aus Platzgründen nur wenige Beispiele aufgeführt werden. Umfangreiche Listen liegen jedoch in maschinenlesbarer Form vor. Die invertierten Listen  (Zuordnung von Wort nach Wortart) wurden daraus mit Hilfe eines Programmes abgeleitet.

Zur Vervollständigung der Wortlisten wurde versucht, für diejenigen Wörter, die im Wörterbuch von Morphy nicht erfaßt sind, auf Grund ihrer morphologischen Merkmale Prognosen für mögliche Wortklassenzugehörigkeiten abzugeben. Daß dies im Deutschen erfolgversprechend ist, zeigt das Morphologieprogramm MORPHIX , das ausschließlich auf einer Endungsanalyse basiert (vergl. Finkler & Neumann, 1986). Wolfgang Lezius hat im Rahmen des hier beschriebenen Tagging-Projektes mit Hilfe von Morphy untersucht, wie häufig welche Endungen in seinem etwa 90 000 verschiedene Wortformen umfassenden Vokabular (15 000 Stämme) für die jeweilige Wortart vorkommen. Anhang gif zeigt das Ergebnis für die Grundwortarten. Mit Hilfe dieser Tabelle ist Morphy in der Lage, allein auf Grund einer Endungsanalyse nicht im Vokabular enthaltenen Wörtern zu über 95% die richtige Grundwortart zuzuordnen.


next up previous contents index
Next: Ein Ansatz zur maschinellen Up: Kontextorientierte Wortartenbestimmung Previous: Ein Tagger mit variabler

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997