Es wurde gezeigt, wie mit Hilfe eines einheitlichen
statistischen Ansatzes eine Reihe von Sprachverarbeitungsproblemen
angegangen werden kann. Ein auf der Häufigkeit von
Wortfolgen beruhender Algorithmus erlaubt es, Lückentexte sinnvoll
zu ergänzen. Wird mit demselben Algorithmus ermittelt, wie
gut sich die einzelnen Wörter eines Satzes vorhersagen lassen,
so kann dem Satz ein Zahlenwert zugeordnet werden, der mit seiner
syntaktischen Korrektheit korreliert. Mögliche Anwendungen sind
die Syntaxprüfung, die Rechtschreibfehlerkorrektur, die
Wortklassifizierung und die maschinelle Übersetzung.
Da die Wahrscheinlichkeit, eine bestimmte Wortfolge im zugrundegelegten
Textkorpus vorzufinden, jedoch mit zunehmender Wortfolgenlänge stark
abnimmt, ist das System in der Praxis auf die Betrachtung kurzer
Wortfolgen von maximal 5 Wörtern beschränkt. Dadurch können lediglich
Nahbereichsabhängigkeiten zwischen Wörtern erfaßt werden, was die
Qualität der Ergebnisse beeinträchtigt. Kapitel
zeigt, daß es zur Erfassung syntaktischer Zusammenhänge genügt,
nicht Folgen von Wörtern, sondern Folgen von Wortarten zu betrachten.
Damit läßt sich eine Vielzahl von Wörtern auf eine wesentlich
kleinere Anzahl von Wortarten reduzieren. Da es sehr viel weniger
Folgen von Wortarten als Wortfolgen gibt, wird auf diese Weise
die Breite des betrachteten Kontextes erweitert.