Angesichts des praktischen Erfolges und der weitreichenden Anwendbarkeit der Tagging-Systeme für die englische Sprache liegt es nahe, eine entsprechende Vorgehensweise auch auf das Deutsche anzuwenden. Mit dem Vorliegen eines englischen und eines deutschen Tagging-Systems könnte dann auch der Einsatz von Taggern bei der maschinellen Übersetzung erprobt werden.
Mit dem LIMAS-Korpus des Bonner Institutes für Kommunikationsforschung und Phonetik wurde ein deutsches Korpus nach dem Vorbild des Brown-Korpus geschaffen. Dieses wurde jedoch bislang nicht mit Wortarten-Markierungen versehen. Trotz eines vielversprechenden Ansatzes von Wothke et al. (1993) existiert bislang kein mit syntaktischen Tags versehenes deutschsprachiges Korpus größeren Umfanges. Weiterhin scheint keines der öffentlich zugänglichen und ausreichend dokumentierten Wortartensysteme für einen solchen Zweck unmittelbar geeignet zu sein. Auf den Stand der Wortartensysteme für die deutsche Sprache kann hier nicht detailliert eingegangen werden. Eine gute Darstellung findet sich in Bergenholtz und Schaeder (1977, S. 19-45). Dort heißt es:
``Die meisten Arbeiten zur deutschen Sprache, die auf Wortarten eingehen, darunter die meisten deutschen Grammatiken, stehen in der Wortartentradition, die mit Dionysios Thrax anfängt und verwenden eine Mischung morphologischer, semantischer und syntaktischer Kriterien. Mit unserem Beitrag zum Problem der Wortarten möchten wir deutlich machen, daß man nicht umhin kann, Sütterlin (1923, 97) zuzustimmen: `Diese Einteilung ist deswegen (wissenschaftlich) nicht haltbar, weil ihr kein einheitliches Einteilungsmerkmal zugrunde liegt. Bald ist die Form des Wortes, die Flexion oder Beugbarkeit maßgebend ... bald die Bedeutung an sich ... bald seine Bedeutung und Verwendung im Satze ... Man kann aber jeweils nur nach dem einen dieser drei Gesichtspunkte einteilen.' ''Bergenholtz und Schaeder (1977, S. 42) weisen darauf hin, daß insbesondere bei den Wortartenangaben der geschlossenen Wortarten erhebliche Probleme bestehen. Dies zeigen sie durch den Vergleich von vier Wörterbüchern: Wahrig (1968), Klappenbach und Steinitz (1964 ff.), Paul (1966) und Grebe, Köster & Müller (1970). Tabelle
faßt die Wortartenangaben zusammen, die Bergenholtz
und Schaeder in diesen Wörterbüchern für einige ``recht
zufällig'' ausgewählte Wörter aus den geschlossenen Wortarten
gefunden haben.
| Wahrig | Klappenbach | Paul | Grebe, Köster | |
| und Steinitz | und Müller | |||
| als | Konjunktion | Konjunktion | -- | temporale |
| Konjunktion, | ||||
| Vergleichspartikel | ||||
| aber | Konjunktion, | Konjunktion, | Konjunktion, | Konjunktion, |
| Adverb, | Adverb | Adverb | Adverb | |
| Interjektion | ||||
| auch | Adverb, | Konjunktion | -- | Adverb |
| Relativadverb, | ||||
| Konjunktion | ||||
| doch | Konjunktion, | Konjunktion, | -- | Konjunktion, |
| Füllwort | Adverb | Adverb | ||
| je | Adverb, | Adverb, | Adverb, | Adverb, |
| Numerale, | Konjunktion, | Interjektion | Konjunktion | |
| Präposition, | Präposition | |||
| Konjunktion, | ||||
| Interjektion | ||||
| so | Adverb, | Adverb, | demonstratives | Adverb |
| Pronomen, | Adverb im Übergang | Adverb, | ||
| Konjunktion | zur Konjunktion, | Relativpartikel, | ||
| Konjunktion | Relativpronomen |
Bergenholtz und Schaeder stellen selbst ein rein syntaktisch orientiertes Wortartensystem vor, das auf der Grundlage von Textkorpora sehr detailliert ausgearbeitet wurde. Gerade für die kritischen geschlossenen Wortarten legen sie sich konsequent fest, indem sie zu jeder Wortart eine möglichst vollständige Liste der zugehörigen Wörter angeben.
Dieses Wortartensystem erschien so brauchbar, daß es im Rahmen der vorliegenden Arbeit als Ausgangspunkt für die Entwicklung eines Wortartensystems zum maschinellen Taggen verwendet wurde. Die Definition der Wortarten erfolgt bei Bergenholtz und Schaeder in einheitlicher Weise nach ausschließlich syntaktischen Kriterien und mit gleicher ``Tiefe'', d. h. die Feinheit der Aufteilung ist für alle Wortarten etwa gleichmäßig. Die gewählte Tiefe trägt sicherlich sehr zum Verständnis des Systemes bei, ist jedoch für einen maschinellen Tagger, der z. B. zur Lückentextergänzung eingesetzt werden soll, nicht ausreichend, da bei der Wortarteneinteilung die Flexionsformen der Wörter nicht unterschieden wurden.
Klein (1969, S. 31) hat zwar darauf hingewiesen, daß man bei einer konsequenten Berücksichtigung des gleichartigen Verhaltens von Wörtern im Satz ``... zu einem Labyrinth von Wortklassen ...'' käme, da beispielsweise der und das, gehe und gehst unterschieden werden müßten. Er selbst verwendet ein System von insgesamt 18 Wortarten. Mit Blick auf die Lückentextergänzung, die hier im Vordergrund steht, erscheint aber ein komplexes Wortartensystem unumgänglich.
Im Rahmen dieser Arbeit wurde der Versuch unternommen, möglichst vollständige Listen aller Wörter aufzustellen, die in Texten dieselbe syntaktische Funktion übernehmen können. Daß bei einer stark flektierenden Sprache wie dem Deutschen eine Einteilung in sehr viele verschiedene Wortarten nötig wurde, war unvermeidbar.
Bei der Komplexität des entstehenden Wortartensystems war
ein noch konsequenteres Durchhalten einheitlicher Regeln für die
Aufteilung der Wörter erforderlich, als dies etwa beim
Brown-Korpus praktiziert wurde.
Die von einem für die Lückentextergänzung
geeigneten Wortartensystem idealerweise zu erfüllenden
Bedingungen lauten wie folgt:
Diese Bedingungen sollen durch einige sich daraus ergebende Folgerungen erläutert werden:
Aus Gründen der praktischen Durchführbarkeit war es allerdings schließlich doch nicht möglich, alle nach Bedingung 1 eigentlich nötigen Wortartunterscheidungen vorzunehmen. Insbesondere wurde zunächst auf die Berücksichtigung von Verbvalenzen verzichtet. Hierfür existiert zwar gutes empirisches Material (z. B. Schumacher, 1986). Dieses wurde aber noch nicht einbezogen.
Die Grobgliederung des Wortartensystems wurde von Bergenholtz und Schaeder (1977) übernommen und soll daher an dieser Stelle nicht wiederholt werden. Dort werden für viele Grundwortarten mögliche feinere Unterscheidungen zwar angedeutet, aber nicht umgesetzt. Viele dieser Vorschläge wurden übernommen, andere hinzugefügt. Für die Wörter der geschlossenen Wortarten wurde von den bei Bergenholtz und Schaeder abgedruckten Wortlisten ausgegangen. Diese mußten jedoch entsprechend der größeren Definitionstiefe aufgeteilt werden.
Für die offenen Wortarten (Vollverben, Substantive, Adjektive, Adverbien und Interjektionen) sind bei Bergenholtz und Schaeder keine Wortlisten angeführt. Zur Erstellung von Listen dieser Wortarten wurde auf das Morphologieprogramm Morphy zurückgegriffen, das fast fehlerlos die Flexionsformen zu 15 000 Wortstämmen analysiert und zusätzlich in der Lage ist, Komposita zu zerlegen (Lezius, 1992; Stammbauer, 1993).
Eine Liste aller entstandenen Wortarten nebst Beispielsätzen
ist in Anhang
abgedruckt. Dort finden sich auch Wortlisten
der geschlossenen Wortarten, für die Vollständigkeit zwar angestrebt,
aber nicht erreicht wurde. Für die offenen Wortarten konnten aus Platzgründen nur
wenige Beispiele aufgeführt werden. Umfangreiche Listen liegen jedoch
in maschinenlesbarer Form vor. Die invertierten Listen (Zuordnung
von Wort nach Wortart) wurden daraus mit Hilfe eines Programmes abgeleitet.
Zur Vervollständigung der Wortlisten wurde versucht, für diejenigen Wörter,
die im Wörterbuch von Morphy nicht erfaßt sind, auf Grund ihrer
morphologischen Merkmale Prognosen für mögliche
Wortklassenzugehörigkeiten abzugeben. Daß dies im Deutschen
erfolgversprechend ist, zeigt das Morphologieprogramm MORPHIX , das
ausschließlich auf einer Endungsanalyse basiert
(vergl. Finkler & Neumann, 1986). Wolfgang Lezius hat
im Rahmen des hier beschriebenen Tagging-Projektes
mit Hilfe von Morphy untersucht,
wie häufig welche Endungen in seinem etwa 90 000 verschiedene
Wortformen umfassenden Vokabular (15 000 Stämme) für die jeweilige
Wortart vorkommen. Anhang
zeigt
das Ergebnis für die Grundwortarten. Mit Hilfe dieser Tabelle
ist Morphy in der Lage, allein auf Grund einer Endungsanalyse
nicht im Vokabular enthaltenen Wörtern zu über 95% die richtige
Grundwortart zuzuordnen.