next up previous contents index
Next: Kontextorientierte Wortartenbestimmung Up: Kontextsensitive Rechtschreibfehlerkorrektur Previous: Schätzfehler

Zusammenfassung und Ausblick

Ein Text wurde mit Hilfe eines Zufallsgenerators mit Buchstabenfehlern versehen. Es zeigte sich, daß etwa 90% der erzeugten Fehler zu inkorrekten Wörtern (Wortfehler) und nur etwa 10% zu zulässigen Wörtern (Kontextfehler) führten. Der vorgestellte Algorithmus zur kontextsensitiven Fehlererkennung war im Gegensatz zu herkömmlichen wortorientierten Programmen in der Lage, außer den Wortfehlern zusätzlich etwa 82% der Kontextfehler zu lokalisieren. Dies geschah durch Berücksichtigung der Häufigkeiten von Worttupeln in einem umfangreichen Textkorpus. Bei der Fehlerkorrektur erbrachte die Einbeziehung des Kontextes gegenüber einer rein orthographischen Fehlerkorrektur eine Verbesserung der Korrekturrate um etwa 14% für Wortfehler und 6% für Kontextfehler.

Der wesentlichste Nachteil des Algorithmus liegt in einer hohen Anzahl falsch diagnostizierter Kontextfehler. Diese wird dadurch verursacht, daß ein Korpus realisierbarer Größe nur einen winzigen Bruchteil aller in einer Sprache möglichen Worttupel enthalten kann. In der Literatur genannte Methoden zur Korrektur der Schätzungen von Bigramm-Häufigkeiten lassen hier nur geringfügige Verbesserungen erwarten. Erfolgversprechend erscheint hingegen die Bildung syntaktisch orientierter Wortklassen.



Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997