Das System wurde zunächst anhand einer größeren Anzahl konstruierter Testsätze überprüft. In vielen Fällen wurden Kontextfehler richtig diagnostiziert und korrigiert. Beispiele sind etwa die Sätze ``er wahr zufrieden'', ``er mußte fiel arbeiten'', ``er glaubt, das es stimmt'' und ``sehr geehrtes Damen und Herren''.
Zur Durchführung einer quantitativen Evaluierung wurde ein Auszug aus der Frankfurter Rundschau (Woche vom 2. bis 7. August 1993) im Umfang von 20 000 Wörtern (einschließlich Satzzeichen) ausgewählt. Entsprechend der in Peterson (1986) - allerdings für das Englische - angegebenen Verteilung der vier häufigsten Fehlerarten wurde dieser Text mit Hilfe eines Zufallsgenerators mit folgenden 1000 Fehlern versehen:
Da auf einige Wörter mehr als ein Fehler entfiel, waren nach Verteilung der Fehler insgesamt 957 Wörter fehlerhaft. Davon waren 855 (89,3%) Wortfehler und 102 (10,6%) Kontextfehler. Interessant ist, daß sich die durchschnittlichen Längen von einerseits kontext- und andererseits wortfehlerbehafteten Wörtern deutlich unterscheiden. Erstere haben eine mittlere Länge von nur 3,71 Buchstaben, letztere eine mittlere Länge von 9,67 Buchstaben. Die durchschnittliche Länge der Wörter des Textes (nicht des Vokabulares) beträgt 6,22 Buchstaben. Dieser Unterschied erklärt sich dadurch, daß ein relativ hoher Anteil aller möglichen kurzen Buchstabenfolgen zulässige Wörter sind, während dieser Anteil bei langen Buchstabenfolgen wesentlich kleiner ist. Demnach ist es bei einer zufälligen Änderung eines kurzen Wortes erheblich wahrscheinlicher, ein anderes Wort zu erzeugen, als bei einem langen Wort.
Tabelle
zeigt die Leistungen des
Programmes bei der Fehlerkorrektur. Es wurden etwa 97% der
Wortfehler gefunden. Die Anzahl der falsch
diagnostizierten Wortfehler liegt bei 233 und damit bei etwa
1% der Textwörter. Die Quote richtig korrigierter
Wortfehler konnte durch die Berücksichtigung des Kontextes
von etwa 68% auf 82% gesteigert werden. Als richtige
Korrektur gilt, wenn das vom Korrektursystem auf
dem vordersten Rang plazierte Wort mit dem in der
Ursprungsversion des Prüftextes verwendeten Wort übereinstimmt.
Bei den Kontextfehlern sind die Ergebnisse schlechter.
Es wurden zwar 82% der Kontextfehler gefunden, wobei
in etwa der Hälfte der Fälle sogar beide an einem Fehler
beteiligten Bigramme identifiziert wurden. Die Anzahl
der Bigramme, die zu Unrecht als unzulässig diagnostiziert wurden,
liegt jedoch mit 2302 bei etwa 11% aller Bigramme im Text.
Dieser Wert ist zwar besser als der für den Beispieltext
aus der Frankfurter Allgemeinen Zeitung ermittelte
(vergl. Tabelle
), bedeutet aber eine erhebliche
Einschränkung für die Brauchbarkeit des Algorithmus.
Erwartungsgemäß liegt auch die Rate richtig korrigierter
Kontextfehler mit 43% bzw. 49% deutlich niedriger als bei
Wortfehlern. Da die durchschnittliche Wortlänge bei
Kontextfehlern kleiner ist als bei Wortfehlern, ist der
Anteil eines falschen Buchstaben am gesamten Wort prozentual höher.
Entsprechend kommt es bei der Bestimmung der orthographisch ähnlichsten
Wörter häufiger zu falschen Prognosen.
| Wortfehler | Kontextfehler | |
| Anzahl Fehler im Text | 855 | 102 |
| Anzahl korrekt diagnostizierter Fehler | 829 | 84 |
| Anzahl falsch diagnostizierter Fehler | 233 | |
| Anteil der Fehler, die unter Berücksichtigung | 699 | 50 |
| des Kontextes richtig korrigiert wurden | (81,8%) | (49,0%) |
| Anteil der Fehler, die ohne Berücksichtigung | 578 | 44 |
| des Kontextes richtig korrigiert wurden | (67,6%) | (43,1%) |