next up previous contents index
Next: Bestimmung von Wortarten Up: Anwendungen Previous: Disambiguierung mehrdeutiger Wörter bei

 

Maschinelle Rechtschreibfehlerkorrektur

Gängige Rechtschreibhilfen vergleichen jedes in einem Text vorgefundene Wort mit den Einträgen in einem Wörterbuch. Wird ein Wort nicht gefunden, so werden dem Benutzer auf Grund der orthographischen Ähnlichkeit  (die z. B. durch die Anzahl der übereinstimmenden Trigramme gemessen werden kann; vergl. Angell et al., 1983) Vorschläge gemacht, um welches korrekte Wort es sich handeln könnte. Der Benutzer entscheidet sich daraufhin unter Berücksichtigung des Kontextes für eines der Wörter.

Da das in diesem Kapitel vorgestellte statistische System in der Lage ist, Wortvorschläge auf Grund des Kontextes zu machen, kann es die Aufgabe des Benutzers übernehmen, unter einer Anzahl orthographisch orientierter Korrekturvorschläge eine kontextorientierte Auswahl zu treffen. Am Beispiel des Satzes ``he did not expcet him to come'' sieht dies wie folgt aus: Für das fehlerhaft geschriebene Wort expcet seien auf Grund der orthographischen Ähnlichkeit folgende Alternativen ermittelt worden: expect, excerpt, expects, excerpts, expected, excepted, expert, exempt, excite und excerpted. Nun wird dem System die Aufgabe gestellt, Wortvorschläge für den Lückentext ``he did not tex2html_wrap_inline23685 him to come'' zu machen. Die Rangplätze der 10 genannten Wörter werden ermittelt und letztlich dasjenige Wort mit dem niedrigsten Rangplatz ausgewählt. Tabelle gif zeigt die tatsächlich erhaltenen Rangplätze.

Qualitative Auswertungen ergaben, daß sich mit dieser Methode zur Rechtschreibfehlerkorrektur bei einem mit zufälligen Schreibfehlern versehenen Text die Quote richtig korrigierter Rechtschreibfehler deutlich verbessern läßt (vergl. Kapitel gif).

 

Wort Rangplatz
expect 49
expected 666
expert 8533
exempt 18423
excite 23951
excerpts 24965
expects 25173
excepted 35067
excerpted 52193
excerpt 52194
Tabelle: Die Rangplätze der 10 orthographisch ähnlichsten Worte zu expcet.

 


next up previous contents index
Next: Bestimmung von Wortarten Up: Anwendungen Previous: Disambiguierung mehrdeutiger Wörter bei

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997