Zur Abschätzung der Wahrscheinlichkeit, mit der ein fehlerhaftes Wort aus einem bestimmten korrekten Wort hervorgegangen ist, werden in der Literatur eine Reihe von Verfahren angegeben, von denen einige in Peterson (1980) sowie in Pollock & Zamora (1984) diskutiert werden. Sehr gute Ergebnisse erzielen Kernighan et al. (1990), die mit einem Verfahren zur Fehlerumkehr arbeiten. Hierbei berücksichtigen sie die vier häufigsten Fehlertypen , nämlich die Auslassung, die Ersetzung oder die Einfügung eines Buchstabens sowie die Vertauschung zweier aufeinanderfolgender Buchstaben (Dreher). Für jeden dieser Fehlertypen existiert eine Fehlermatrix, die für jeden Buchstaben des Alphabets angibt, mit welcher Wahrscheinlichkeit er durch welchen anderen Buchstaben ersetzt, mit welchem Buchstaben vertauscht, oder nach welchem Buchstaben eingesetzt oder ausgelassen wird. Mit Hilfe dieser Matrizen wird die Wahrscheinlichkeit der Transformation eines korrekten in ein fehlerhaftes Wort berechnet.
Diese Vorgehensweise hat jedoch den Nachteil, daß sie bestimmte Annahmen über den Eingabeprozeß macht und somit beispielsweise nicht gleichermaßen für manuell eingetippte als auch für maschinell eingelesene Texte verwendet werden kann. Aus diesem Grunde wurde hier ein universelleres Verfahren gewählt. Es handelt sich um das von Angell et al. (1983) angegebene Trigramm-Ähnlichkeitsmaß , das die orthographische Ähnlichkeit zwischen Buchstabenfolgen dadurch berechnet, daß es die Anzahl der übereinstimmenden Buchstaben-Tripel c (Trigramme) bestimmt und zur Gesamtzahl aller in beiden Buchstabenfolgen vorkommenden Trigramme ins Verhältnis setzt:
n und m sind hierbei die Längen der beiden
Buchstabenfolgen. Zu beachten ist, daß vor der
Bestimmung der Anzahl der gemeinsamen Trigramme
zunächst jeder Buchstabenfolge am Anfang und am Ende zwei
Leerzeichen hinzugefügt werden müssen. Dadurch
wird erreicht, daß jeder Buchstabe in genau drei
Trigrammen erscheint, also gleich gewichtet wird.
Abbildung zeigt, welche Trigramme
die beiden Wörter Reisebus und Busreise
gemeinsam haben. Bei vier gemeinsamen Trigrammen
und jeweils 8 Buchstaben Wortlänge ergibt sich
die orthographische Ähnlichkeit zwischen beiden
Wörtern zu s = 2 * 4 / (8 + 2 + 8 + 2) = 0,4.
Abbildung: Anteil der gemeinsamen Trigramme zwischen den
beiden Wörtern Reisebus und Busreise.
Zur Korrektur eines fehlerhaft geschriebenen Wortes wird dasjenige Wort eines Vokabulares verwendet, für das der Wert von s maximal ist. Freund & Willett (1982) sowie Takahashi et al. (1990) zeigen, wie es mit Hilfe geeigneter Index-Strukturen vermieden werden kann, daß zur Maximierung von s die Ähnlichkeitswerte für alle Wörter des Vokabulares berechnet werden müssen.
Die Erprobung des bislang beschriebenen Trigramm-Ähnlichkeitsmaßes zeigte, daß die erzielten Ergebnisse im allgemeinen gut mit der Intuition übereinstimmen. Es stellte sich aber heraus, daß Buchstabenverdreher oftmals zu unterbewerteten Ähnlichkeiten führen. Beispielsweise sind die Ähnlichkeiten zwischen ``uz'' und ``zu'' genauso wie zwischen ``uz'' und ``xy'' beide Null, was nicht zweckmäßig ist. Zudem erschien es sinnvoll, bei gleichen Ähnlichkeitswerten eine Buchstabenfolge im Zweifel durch das häufigere Wort zu ersetzen, so etwa fie durch die anstatt durch nie. Diese Modifikationen werden in der folgenden Formel berücksichtigt:
Hierbei ist b die Anzahl der übereinstimmenden Buchstaben und h die Korpushäufigkeit des betrachteten Wortes. Durch Einführung geeigneter Faktoren wird eine Rangfolge des Einflusses des jeweiligen Summanden auf das Gesamtergebnis festgelegt.
In Tabelle sind einige Beispiele für mit
diesem Ähnlichkeitsmaß berechnete Korrekturvorschläge
aufgeführt. Sie beruhen auf einem Korrekturvokabular der
65 356 Wörter des Textkorpus aus Kapitel
mit einer Korpushäufigkeit von mindestens 10.
Stichproben mit Versuchspersonen zeigten, daß diese ohne Kontext nur selten
in der Lage sind, bessere Korrekturwörter zu liefern, und daß die
Menge der in Betracht gezogenen Korrekturvorschläge meist weniger
vollständig ist. Der Vergleich mit den von einem gängigen
Textverarbeitungsprogramm erzeugten Korrekturvorschlägen
zeigt, daß die dort verwendeten Algorithmen
schlechtere Ergebnisse liefern.
Schreibfehler | Trigramm | Word für Windows |
Eizelheiten | Einzelheiten Eigenheiten | Eitelkeiten Einzelheiten |
(Einzelheiten) | Einheiten Einzelheit | Einzelbett Einzelbetten |
einzuleiten Eitelkeiten | Einzelbettes Einzelheit | |
einleiten beizeiten | Eisschlitten Einzelbetts | |
Fehlzeiten einleitende | Einzeldinge | |
Geichts | Gesichts Gewichts | Geistes Gälisch Geist |
(Gerichts) | Gedichts Gerichts nichts | Gälische |
Lichts gereicht Berichts | ||
rechts Gesicht | ||
qangem | langem engem ganzem | (Keine Vorschläge) |
(langem) | genauem jungem grauem | |
sanftem engstem nacktem | ||
braunem | ||
etern | Eltern Metern Stern | Ettern Betern Metern eitern |
(Metern) | Eiern Mietern Vätern | Eltern entern Estern Eutern |
Gütern Tätern intern | extern Eternit Ether Etter | |
Ostern | Äsern ästen Äster Ästern | |
Äther Eden Edens edlen | ||
Bingriffe | Eingriffe Begriffe Angriffe | (Keine Vorschläge) |
(Eingriffe) | Biografie Bieringer Giraffe | |
billigeren bisherigen | ||
Handgriffe billigen |