Kontextsensitive Rechtschreibfehlerkorrektur auf der Basis von Wortnachbarschaften
Abstract: Heute gebräuchliche Programme zur Korrektur von Schreibfehlern betrachten die Wörter eines Textes als isolierte Einheiten. Damit können Fehler, die aus dem falschen Gebrauch korrekter Wörter resultieren (z.B. "er hat fiel Geld"), nicht erkannt werden. Die Korrektur erkannter Rechtschreibfehler erfolgt in der Regel in der Weise, daß vom System eine Reihe von Korrekturwörtern präsentiert werden, aus denen der Benutzer auswählt. Wie schon bei der Fehlererkennung, so wird auch für die Berechnung der Korrekturwörter der Kontext nicht berücksichtigt. Dies führt oftmals zu wenig sinnvollen Korrekturvorschlägen.

Diese Nachteile können mit Hilfe des hier vorgeschlagenen Korrekturalgorithmus vermieden werden. Dazu wird auf der Basis umfangreicher, für die jeweilige Anwendung möglichst repräsentativer Textkorpora ausgezählt, welche Wortpaare wie häufig in direkter Aufeinanderfolge auftreten. Diese gemessenen Häufigkeiten werden mit Erwartungswerten verglichen, die sich aus den Korpushäufigkeiten der beiden beteiligten Wörter ergeben. Der Fehlererkennungsalgorithmus betrachtet nun solche Wortpaare des zu korrigierenden Textes als potentiell fehlerhaft, deren gemessene Auftretenshäufigkeit im Textkorpus deutlich unter dem Erwartungswert liegt. Es zeigt sich, daß auf diese Weise die meisten Fehler, die sich aus der direkten Nachbarschaft von Wörtern erschließen lassen, diagnostiziert werden.

Bei der Generierung von Korrekturvorschlägen wird einerseits - wie auch sonst üblich - auf ein orthographisches Verfahren zurückgegriffen. Dieses liefert im obigen Beispiel Korrekturwörter wie etwa "fibel", "fidel", "ziel", "kiel" und "viel". Unter diesen erfolgt nun aber eine zusätzliche Auswahl nach der Wahrscheinlichkeit des Auftretens des jeweiligen Wortes im vorgegebenen Kontext. Dadurch wird in den meisten Fällen das korrekte Wort herausgefiltert.

Das Hauptproblem des geschilderten Verfahrens besteht darin, daß die gemessenen Paar-Häufigkeiten für seltene Wörter statistisch wenig abgesichert und damit unzuverlässig sind. Es werden daher Möglichkeiten diskutiert, diese Schätzungen zu verbessern.


Paper im Postscript-Format

Home-page FASK
Home-page Reinhard Rapp