Der hier vorgestellte Ansatz besteht darin, die Tupel- oder Tripel-orientierte Vorgehensweise anstatt auf einzelne Buchstaben auf ganze Wörter zu beziehen. Untersucht wird also, mit welcher Wahrscheinlichkeit nicht Buchstaben, sondern Wörter in einem zugrundegelegten Textkorpus aufeinander folgen. Dieser Ansatz ist in der Spracherkennung gebräuchlich, wurde bislang aber nur selten mit der Rechtschreibfehlererkennung in Zusammenhang gebracht (vergl. Church & Gale, 1991; Gale & Church, 1990; Rapp & Wettler, 1994).
Um zuverlässige Abschätzungen über die Häufigkeiten von
Wortfolgen zu bekommen werden lange Texte benötigt.
Als Textbasis wurde das bereits in Kapitel
beschriebene deutschsprachige Korpus im Umfang von insgesamt etwa
21 Millionen laufenden Wortformen verwendet.
Nach Meyer (1989) ist es umso unwahrscheinlicher, eine vorgegebene Folge von Wörtern in einem Korpus vorzufinden, je länger die Wortfolge ist, d. h. je mehr Wörter sie enthält. Daraus folgt, daß die durch Auszählung des Basiskorpus erhaltenen Schätzungen der Auftretenshäufigkeiten von Wortfolgen mit zunehmender Länge der betrachteten Wortfolgen unpräziser werden. Auf der anderen Seite berücksichtigen längere Wortfolgen mehr Kontext, lassen also bessere Vorhersagen erwarten.
Zur Beantwortung der Frage, welche Wortfolgenlänge sich für
die Rechtschreibfehlererkennung am besten eignet, wurde
ausgezählt, wieviele der in einem zufällig ausgewählten
Zeitungsartikel
vorkommenden Wortfolgen im oben beschriebenen
Textkorpus tatsächlich auftreten. Das in Tabelle
dargestellte Ergebnis zeigt, wie gravierend das sog.
Sparse -Data-Problem
ist: 22% der Wortpaare wurden
nicht gefunden, und sogar 58% der Worttripel.
Dieses Ergebnis hängt zwar sicherlich stark vom gewählten Text ab, deutet aber darauf hin, daß bei einem Textkorpus der zur Verfügung stehenden Größenordnung eine Betrachtung von Wortfolgen mit einer Länge von mehr als zwei Wörtern nicht sinnvoll ist.
| Mittlere | Anteil nicht | |
| Auftretens- | gefundener | |
| häufigkeit | Wortfolgen | |
| Einzelwörter | 146553,522 | 2,69 % |
| Wortpaare | 2264,542 | 22,25 % |
| Tripel | 109,950 | 58,11 % |
| 4-Tupel | 3,465 | 87,36 % |
| 5-Tupel | 0,475 | 97,29 % |
| 6-Tupel | 0,002 | 99,77 % |
| 7-Tupel | 0,000 | 100,00 % |