next up previous contents index
Next: Kontextorientierte Fehlererkennung und -korrektur Up: Kontextsensitive Rechtschreibfehlerkorrektur Previous: Kontextsensitive Rechtschreibfehlerkorrektur

Korpushäufigkeiten von Wortfolgen unterschiedlicher Länge

Der hier vorgestellte Ansatz besteht darin, die Tupel- oder Tripel-orientierte Vorgehensweise anstatt auf einzelne Buchstaben auf ganze Wörter zu beziehen. Untersucht wird also, mit welcher Wahrscheinlichkeit nicht Buchstaben, sondern Wörter in einem zugrundegelegten Textkorpus aufeinander folgen. Dieser Ansatz ist in der Spracherkennung gebräuchlich, wurde bislang aber nur selten mit der Rechtschreibfehlererkennung in Zusammenhang gebracht (vergl. Church & Gale, 1991; Gale & Church, 1990; Rapp & Wettler, 1994).

Um zuverlässige Abschätzungen über die Häufigkeiten von Wortfolgen zu bekommen werden lange Texte benötigt. Als Textbasis wurde das bereits in Kapitel gif beschriebene deutschsprachige Korpus im Umfang von insgesamt etwa 21 Millionen laufenden Wortformen verwendet.

Nach Meyer (1989) ist es umso unwahrscheinlicher, eine vorgegebene Folge von Wörtern in einem Korpus vorzufinden, je länger die Wortfolge ist, d. h. je mehr Wörter sie enthält. Daraus folgt, daß die durch Auszählung des Basiskorpus erhaltenen Schätzungen der Auftretenshäufigkeiten von Wortfolgen mit zunehmender Länge der betrachteten Wortfolgen unpräziser werden. Auf der anderen Seite berücksichtigen längere Wortfolgen mehr Kontext, lassen also bessere Vorhersagen erwarten.

Zur Beantwortung der Frage, welche Wortfolgenlänge sich für die Rechtschreibfehlererkennung am besten eignet, wurde ausgezählt, wieviele der in einem zufällig ausgewählten Zeitungsartikelgif vorkommenden Wortfolgen im oben beschriebenen Textkorpus tatsächlich auftreten. Das in Tabelle gif dargestellte Ergebnis zeigt, wie gravierend das sog. Sparse -Data-Problemgif ist: 22% der Wortpaare wurden nicht gefunden, und sogar 58% der Worttripel.gif

Dieses Ergebnis hängt zwar sicherlich stark vom gewählten Text ab, deutet aber darauf hin, daß bei einem Textkorpus der zur Verfügung stehenden Größenordnung eine Betrachtung von Wortfolgen mit einer Länge von mehr als zwei Wörtern nicht sinnvoll ist.

 

Mittlere Anteil nicht
Auftretens- gefundener
häufigkeit Wortfolgen
Einzelwörter 146553,522 2,69 %
Wortpaare 2264,542 22,25 %
Tripel 109,950 58,11 %
4-Tupel 3,465 87,36 %
5-Tupel 0,475 97,29 %
6-Tupel 0,002 99,77 %
7-Tupel 0,000 100,00 %
Tabelle: Das Auftreten von Wortfolgen unterschiedlicher Länge aus dem Beispieltext in den analysierten Korpora.

 


next up previous contents index
Next: Kontextorientierte Fehlererkennung und -korrektur Up: Kontextsensitive Rechtschreibfehlerkorrektur Previous: Kontextsensitive Rechtschreibfehlerkorrektur

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997