next up previous contents index
Next: Orthographische Ähnlichkeit zwischen Buchstabenfolgen Up: Kontextsensitive Rechtschreibfehlerkorrektur Previous: Korpushäufigkeiten von Wortfolgen unterschiedlicher

 

Kontextorientierte Fehlererkennung und -korrektur

Zur Erkennung von Wortfehlern wird wie bei wortorientierten Systemen ein Abgleich mit einem Korrekturvokabular durchgeführt. Die Erkennung von Kontextfehlern erfolgt in analoger Weise, indem die im zu korrigierenden Text auftretenden Worttupel mit einer Liste aller im zugrundegelegten Textkorpus vorkommenden Worttupel verglichen werden.

In Vorexperimenten war zunächst ein anspruchsvolleres Verfahren zur Erkennung von Kontextfehlern untersucht worden: Ein Worttupel aus dem zu korrigierenden Text wurde dann als potentiell fehlerhaft angesehen, wenn es im Textkorpus weniger häufig vorkam, als es der aus den Einzelhäufigkeiten der beiden Wörter berechnete Erwartungswert vermuten ließ. Dieses Verfahren führte aber bei der Fehlererkennung zu einer wesentlich schlechteren Precision, bei nur geringfügig verbessertem Recall, und wurde daher auf obige Minimalform reduziert.

Während der Fehlererkennung werden diejenigen Wörter bzw. Worttupel markiert, an deren Positionen entweder Wortfehler oder Kontextfehler diagnostiziert wurden. Da, wie später gezeigt wird, die Diagnose von Kontextfehlern wesentlich unsicherer ist als die von Wortfehlern, und zudem das System bei Kontextfehlern nicht ohne weiteres entscheiden kann, welches der beiden Wörter eines Tupels das fehlerhafte ist, wurde für die beiden Fehlertypen eine unterschiedliche Art der Markierung gewählt: inverse Darstellung für Wortfehler und Unterstreichung für Kontextfehler. Der Benutzer kann nun durch Auswählen dieser oder auch beliebiger anderer Wörter die Berechnung von Korrekturvorschlägen veranlassen. Im Unterschied zu wortorientierten Programmen erfolgt die Auswahl möglicher Korrekturvorschläge aber nicht allein auf Grund der orthographischen Ähnlichkeit zwischen dem fehlerhaften Wort und den Wörtern des Vokabulars, sondern unter zusätzlicher Berücksichtigung der Nachbarwörter.





Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997