next up previous contents index
Next: Korpushäufigkeiten von Wortfolgen unterschiedlicher Up: No Title Previous: Zusammenfassung

 

Kontextsensitive Rechtschreibfehlerkorrektur

 

Das im vorigen Kapitel vorgestellte statistische Modell zur Lückentextergänzung soll in diesem Kapitel im Hinblick auf eine kontextsensitive Rechtschreibfehlerkorrektur modifiziert werden. Das Beispiel der Rechtschreibfehlerkorrektur eignet sich dazu, die Eigenschaften der gewählten Vorgehensweise zu beleuchten und ihre Möglichkeiten und Grenzen aufzuzeigen. Für einen allgemeinen Überblick über die Methoden zur maschinellen Rechtschreibfehlererkennung und -korrektur sei auf die Arbeiten von Peterson (1980, mit kommentiertem Literaturverzeichnis) und Pollock & Zamora (1984) verwiesen.

Die gängigen Programme zur Rechtschreibfehlererkennung lassen sich in zwei Grundtypen einteilen: einerseits buchstabentupelorientierte und andererseits wortorientierte Programme. Bei den buchstabentupelorientierten Programmen werden für das jeweilige Anwendungsgebiet repräsentative Texte daraufhin untersucht, welche Buchstabentupel  (in anderen Fällen Tripel) mit welcher Häufigkeit auftreten. Die so gewonnenen Daten werden anschließend zur Fehlererkennung herangezogen. Für jedes Wort des Korrekturtextes wird ein Fehlerwahrscheinlichkeitskoeffizient berechnet, der sich aus der Häufigkeit der im Wort enthaltenen Buchstabentupel errechnet. Dieses Verfahren hat den Vorteil, daß kein Lexikon erstellt werden muß, das viel Speicherplatz benötigt und einer laufenden Erweiterung bedarf. Nachteilig ist, daß ein erheblicher Prozentsatz der Wörter falsch klassifiziert wird: Einerseits werden korrekte Wörter, in denen seltene Buchstabentupel enthalten sind, als inkorrekt eingestuft. Andererseits werden fehlerhafte Wörter, in denen nur häufige Buchstabentupel vorkommen, als korrekt angesehen. Prinzipiell kann das Verfahren wortgrenzenüberschreitend ausgelegt werden. Aus dem falschen Gebrauch korrekter Wörter resultierende Fehler werden dennoch nur selten diagnostiziert.

Wegen dieser gravierenden Nachteile arbeiten fast alle heute gebräuchlichen Programme zur automatischen Rechtschreibfehlererkennung wortorientiert. Dabei werden die in dem zu prüfenden Text vorkommenden Wörter Wort für Wort mit den Einträgen in einem Lexikon verglichen. Wird ein Wort nicht gefunden, wird es als potentiell fehlerhaft markiert. Auf Grund seiner orthographischen Ähnlichkeit mit vorhandenen Lexikoneinträgen werden mögliche Korrekturwörter berechnet und dem Benutzer am Bildschirm präsentiert. Diesem bleibt es überlassen, das korrekte Wort auszuwählen.

Dieses Verfahren hat den Nachteil, daß Fehler, die aus dem falschen Gebrauch korrekter Wörter resultieren, nicht erkannt werden. Beispielsweise wird in dem Satz ``er hat fiel Geld'' kein Fehler diagnostiziert. Solche Fehler sollen im folgenden als Kontextfehler  bezeichnet werden. Für Fehler, bei denen anstelle des richtigen Wortes ein Nicht-Wort geschrieben wurde (z.B. ``er hat vihl Geld''), wird hingegen die Bezeichnung Wortfehler  verwendet.

Die Wahrscheinlichkeit, daß ein falsch verwendetes Wort im Lexikon gefunden und somit als korrekt klassifiziert wird, wächst mit zunehmendem Umfang des Vokabulares. Nach Peterson (1986) und Damerau & Mays (1989) arbeiten deshalb wortorientierte Korrektursysteme mit einem mittelgroßen Vokabular in der Größenordnung von etwa 100 000 Wörtern optimal. Mit weiterer Vergrößerung des Vokabulares verschlechtert sich die Korrekturleistung.




next up previous contents index
Next: Korpushäufigkeiten von Wortfolgen unterschiedlicher Up: No Title Previous: Zusammenfassung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997