Bei der Zuordnung von Wortarten zu Wörtern versucht der Tagger, auf der Grundlage der Wort/Tag-Liste solche Folgen von Wortarten zu erzeugen, die in einem Basiskorpus möglichst häufig vorkommen. In manchen Fällen wird es ihm allerdings nicht möglich sein, eine Tagfolge zu finden, die im Basiskorpus mindestens einmal vorkommt. Hierfür sind drei Ursachen denkbar:
Atwell (1987) beschreibt, wie auf dieser
Grundlage ein Text grammatikalisch überprüft werden
kann. Da Rechtschreibfehler in der Regel auch zu
grammatikalischen Fehlern führen, schließt dies
eine Rechtschreibprüfung mit ein.
Kapitel
befaßt sich auf der
Basis der Auftretenshäufigkeiten von Wortfolgen
mit diesen Themen. Die dort angegebene Vorgehensweise läßt sich
analog auch auf Folgen von Wortarten übertragen.
| man | 2 | merkt | 12 | es | 0 | gleich | 4 | : | 1 | 3.8 |
| ich | 4 | tat | 1 | es | 0 | nicht | 21 | . | 0 | 5.2 |
| sie | 1 | war | 26 | es | 0 | nicht | 21 | . | 0 | 9.6 |
| er | 0 | wußte | 28 | es | 0 | nicht | 21 | . | 0 | 9.8 |
| ich | 4 | wußte | 28 | es | 0 | nicht | 21 | . | 0 | 10.6 |
| es | 3 | stimmt | 9 | aber | 24 | nicht | 21 | : | 1 | 11.6 |
| er | 0 | muß | 41 | es | 0 | nicht | 21 | . | 0 | 12.4 |
| sie | 1 | ist | 44 | es | 0 | nie | 19 | . | 0 | 12.8 |
| er | 0 | ist | 44 | es | 0 | nicht | 21 | . | 0 | 13.0 |
| man | 2 | kann | 42 | es | 0 | nicht | 21 | . | 0 | 13.0 |
| er | 0 | kann | 42 | jetzt | 9 | nicht | 21 | . | 0 | 14.4 |
| sie | 1 | hat | 21 | das | 54 | gern | 0 | . | 0 | 15.2 |
| man | 2 | weiß | 57 | es | 0 | nicht | 21 | . | 0 | 16.0 |
| ich | 4 | weiß | 57 | es | 0 | nicht | 21 | . | 0 | 16.4 |
| sie | 1 | glaubte | 62 | es | 0 | nicht | 21 | . | 0 | 16.8 |
| ich | 4 | hatte | 83 | sie | 1 | gern | 0 | . | 0 | 17.6 |
| das | 77 | hört | 5 | man | 5 | oft | 10 | . | 0 | 19.4 |
| da | 13 | kommt | 19 | es | 0 | leise | 65 | : | 1 | 19.6 |
| dazu | 82 | kommt | 19 | es | 0 | schnell | 8 | . | 0 | 21.8 |
| mir | 49 | geht | 38 | es | 0 | gut | 24 | . | 0 | 22.2 |
Ein sehr einfacher Algorithmus, der eine Syntaxprüfung auf
eine wortweise Ersetzbarkeit zurückführt, könnte
wie folgt arbeiten: Zu einem vorgegebenen Satz werden aus
einem Korpus alle Sätze gleicher Wortanzahl
herausgesucht. Für jeden gefundenen Satz und jede Wortposition wird
gemäß Formel
berechnet, wie gut das jeweilige
Wort das an der entsprechenden Satzposition stehende Wort des
vorgegebenen Satzes ersetzen kann. Als Maß für die Ersetzbarkeit
dient der Rangplatz des jeweiligen Wortes in der Rangfolge aller
Wörter eines Vokabulares.
Für jeden Satz wird der Mittelwert aus den gefundenen Rangplätzen
gebildet. Dieser Mittelwert kann als Maßzahl für die Ähnlichkeit
des Satzbaus aufgefaßt werden.
Tabelle
zeigt diejenigen Sätze aus dem in
Abschnitt
verwendeten Korpus, die nach diesem Maß die höchste
Ähnlichkeit zu ``er tut es gern.'' aufweisen.