Der in Abschnitt
vorgestellte, zunächst für die
englische
Sprache entwickelte Tagger könnte auf der Basis des in
Abschnitt
beschriebenen Wortartensystems
auch für die deutsche Sprache
verwendet werden, wenn ein umfangreiches mit Tags versehenes deutsches
Referenzkorpus zur Verfügung stünde, dem die benötigten statistischen
Parameter, z. B. die Übergangswahrscheinlichkeiten
zwischen den Tags, entnommen werden könnten.
Die manuelle Annotierung eines größeren Korpus ist jedoch sehr
zeitaufwendig (vergl. Källgren, 1990).
Deshalb sollen hier in Ergänzung der bereits in
Abschnitt
vorgestellten Möglichkeiten drei Vorgehensweisen vorgestellt werden,
die zumindest eine teilweise Automatisierung erlauben.
Voraussetzung ist in jedem Fall eine für das Vokabular des
zu annotierenden Korpus möglichst vollständige Wort/Tag-Liste.
Eine naheliegende Möglichkeit besteht darin, daß der Tagger zunächst auf der Basis eines sehr kleinen handannotierten Korpus die Wortarten weiterer Texte bestimmt. Die Angaben des Programmes werden manuell korrigiert, und das Basiskorpus wird um die zusätzlichen Texte erweitert. Durch diese Vergrößerung des annotierten Korpus verbessert sich die Güte der Voraussagen. Der gesamte Vorgang wird mit weiteren Texten solange wiederholt, bis die gewünschte Größe des annotierten Korpus erreicht ist. Unter der Annahme, daß die Überprüfung eines richtig annotierten Wortes 2 Sekunden, die Korrektur eines falsch annotierten Wortes hingegen 12 Sekunden dauert, und daß das Programm im Mittel 90% der Wörter richtig annotiert, so würde die Annotierung eines Korpus mit einer Million Wortformen etwa 800 Stunden dauern.
Beim zweiten Verfahren werden alle unterschiedlichen Wortfolgen
einer bestimmten Länge (z. B. fünf Wörter) betrachtet, die dem
Textkorpus entnommen werden können.
Eine zufällig ausgewählte Wortfolge wird manuell mit Tags versehen. Alle
anderen Wortfolgen, die sich von dieser Wortfolge in nur
einem Wort unterscheiden, werden anschließend maschinell mit
derselben Tagfolge versehen, soweit dies nicht im Widerspruch
zu den Einträgen in der Wort/Tag-Liste steht. Dieser Vorgang
wird mit weiteren zufällig ausgewählten Wortfolgen so lange
wiederholt, bis alle Wortfolgen mit Tags
versehen sind. Anschließend muß versucht werden, den Text
aus sich überlappenden Wortfolgen wieder so zusammenzusetzen,
daß es bei den sich gleichermaßen überlappenden Tagfolgen zu
keinen Widersprüchen kommt. Zum Schluß muß
selbstverständlich der gesamte Text überprüft werden.
Ein Problem bei dieser Vorgehensweise liegt allerdings darin,
daß es schwer fällt, unvollständige Sätze manuell zu
taggen. Das Verfahren ist zwar prinzipiell auch auf ganze Sätze
anwendbar. Bei längeren Sätzen wird man allerdings selten
Paare finden, die sich nur in einem Wort unterscheiden
(vergl. Abschnitt
).
Das dritte Verfahren, das vollständig maschinell ablaufen kann, betrachtet alle (auch mehrfach) im Korpus vorkommenden Wortfolgen einer bestimmten Länge, etwa mit fünf Wörtern. Für jede dieser Wortfolgen werden alle entsprechend den Einträgen in der Wort/Tag-Liste möglichen Tagfolgen gebildet. Jede dieser Tagfolgen erhält ein Gewicht in der Weise, daß sich die Gewichte der zu einer bestimmten Wortfolge gebildeten Tagfolgen zu eins addieren. Nachdem zu allen im Korpus vorkommenden Wortfolgen der betrachteten Länge alle möglichen Tagfolgen und ihre Gewichte gebildet worden sind, werden alle identischen Tagfolgen zusammengefaßt und ihre Gewichte aufaddiert. Tendenziell werden damit solche Tagfolgen hohe Gewichte erhalten, die im Korpus potentiell häufig angewandt werden können. Dies ist ein erwünschter Effekt, da es ein Qualitätsmerkmal eines Tagging-Systems ist, möglichst wenige Übergänge zwischen den Tags zuzulassen. Im letzten Schritt werden allen Wortfolgen im Korpus die Tagfolgen in der Weise zugeordnet, daß einerseits möglichst häufig Tagfolgen mit hohen Gewichten verwendet werden, sich andererseits aber keine Widersprüche zwischen sich überlappenden Tagfolgen ergeben.