next up previous contents index
Next: Korrekturvorschläge unter Berücksichtigung des Up: Kontextorientierte Fehlererkennung und -korrektur Previous: Kontextorientierte Fehlererkennung und -korrektur

 

Orthographische Ähnlichkeit zwischen Buchstabenfolgen

Zur Abschätzung der Wahrscheinlichkeit, mit der ein fehlerhaftes Wort aus einem bestimmten korrekten Wort hervorgegangen ist, werden in der Literatur eine Reihe von Verfahren angegeben, von denen einige in Peterson (1980) sowie in Pollock & Zamora (1984) diskutiert werden. Sehr gute Ergebnisse erzielen Kernighan et al. (1990), die mit einem Verfahren zur Fehlerumkehr  arbeiten. Hierbei berücksichtigen sie die vier häufigsten Fehlertypen , nämlich die Auslassung, die Ersetzung oder die Einfügung eines Buchstabens sowie die Vertauschung zweier aufeinanderfolgender Buchstaben (Dreher). Für jeden dieser Fehlertypen existiert eine Fehlermatrix, die für jeden Buchstaben des Alphabets angibt, mit welcher Wahrscheinlichkeit er durch welchen anderen Buchstaben ersetzt, mit welchem Buchstaben vertauscht, oder nach welchem Buchstaben eingesetzt oder ausgelassen wird. Mit Hilfe dieser Matrizen wird die Wahrscheinlichkeit der Transformation eines korrekten in ein fehlerhaftes Wort berechnet.

Diese Vorgehensweise hat jedoch den Nachteil, daß sie bestimmte Annahmen über den Eingabeprozeß macht und somit beispielsweise nicht gleichermaßen für manuell eingetippte als auch für maschinell eingelesene Texte verwendet werden kann. Aus diesem Grunde wurde hier ein universelleres Verfahren gewählt. Es handelt sich um das von Angell et al. (1983) angegebene Trigramm-Ähnlichkeitsmaß , das die orthographische Ähnlichkeit  zwischen Buchstabenfolgen dadurch berechnet, daß es die Anzahl der übereinstimmenden Buchstaben-Tripel c (Trigramme) bestimmt und zur Gesamtzahl aller in beiden Buchstabenfolgen vorkommenden Trigramme ins Verhältnis setzt:

equation16496

n und m sind hierbei die Längen der beiden Buchstabenfolgen. Zu beachten ist, daß vor der Bestimmung der Anzahl der gemeinsamen Trigramme zunächst jeder Buchstabenfolge am Anfang und am Ende zwei Leerzeichen hinzugefügt werden müssen. Dadurch wird erreicht, daß jeder Buchstabe in genau drei Trigrammen erscheint, also gleich gewichtet wird. Abbildung gif zeigt, welche Trigramme die beiden Wörter Reisebus und Busreise gemeinsam haben. Bei vier gemeinsamen Trigrammen und jeweils 8 Buchstaben Wortlänge ergibt sich die orthographische Ähnlichkeit zwischen beiden Wörtern zu s = 2 * 4 / (8 + 2 + 8 + 2) = 0,4.

   figure16503
Abbildung: Anteil der gemeinsamen Trigramme zwischen den beiden Wörtern Reisebus und Busreise.

Zur Korrektur eines fehlerhaft geschriebenen Wortes wird dasjenige Wort eines Vokabulares verwendet, für das der Wert von s maximal ist. Freund & Willett (1982) sowie Takahashi et al. (1990) zeigen, wie es mit Hilfe geeigneter Index-Strukturen vermieden werden kann, daß zur Maximierung von s die Ähnlichkeitswerte für alle Wörter des Vokabulares berechnet werden müssen.

Die Erprobung des bislang beschriebenen Trigramm-Ähnlichkeitsmaßes zeigte, daß die erzielten Ergebnisse im allgemeinen gut mit der Intuition übereinstimmen. Es stellte sich aber heraus, daß Buchstabenverdreher oftmals zu unterbewerteten Ähnlichkeiten führen. Beispielsweise sind die Ähnlichkeiten zwischen ``uz'' und ``zu'' genauso wie zwischen ``uz'' und ``xy'' beide Null, was nicht zweckmäßig ist. Zudem erschien es sinnvoll, bei gleichen Ähnlichkeitswerten eine Buchstabenfolge im Zweifel durch das häufigere Wort zu ersetzen, so etwa fie durch die anstatt durch nie. Diese Modifikationen werden in der folgenden Formel berücksichtigt:

equation16536

Hierbei ist b die Anzahl der übereinstimmenden Buchstaben und h die Korpushäufigkeit des betrachteten Wortes. Durch Einführung geeigneter Faktoren wird eine Rangfolge des Einflusses des jeweiligen Summanden auf das Gesamtergebnis festgelegt.

In Tabelle gif sind einige Beispiele für mit diesem Ähnlichkeitsmaß berechnete Korrekturvorschläge aufgeführt. Sie beruhen auf einem Korrekturvokabular der 65 356 Wörter des Textkorpus aus Kapitel gif mit einer Korpushäufigkeit von mindestens 10. Stichproben mit Versuchspersonen zeigten, daß diese ohne Kontext nur selten in der Lage sind, bessere Korrekturwörter zu liefern, und daß die Menge der in Betracht gezogenen Korrekturvorschläge  meist weniger vollständig ist. Der Vergleich mit den von einem gängigen Textverarbeitungsprogramm erzeugten Korrekturvorschlägen zeigt, daß die dort verwendeten Algorithmen schlechtere Ergebnisse liefern.

 

Schreibfehler Trigramm Word für Windows
Eizelheiten Einzelheiten Eigenheiten Eitelkeiten Einzelheiten
(Einzelheiten) Einheiten Einzelheit Einzelbett Einzelbetten
einzuleiten Eitelkeiten Einzelbettes Einzelheit
einleiten beizeiten Eisschlitten Einzelbetts
Fehlzeiten einleitende Einzeldinge
Geichts Gesichts Gewichts Geistes Gälisch Geist
(Gerichts) Gedichts Gerichts nichts Gälische
Lichts gereicht Berichts
rechts Gesicht
qangem langem engem ganzem (Keine Vorschläge)
(langem) genauem jungem grauem
sanftem engstem nacktem
braunem
etern Eltern Metern Stern Ettern Betern Metern eitern
(Metern) Eiern Mietern Vätern Eltern entern Estern Eutern
Gütern Tätern intern extern Eternit Ether Etter
Ostern Äsern ästen Äster Ästern
Äther Eden Edens edlen
Bingriffe Eingriffe Begriffe Angriffe (Keine Vorschläge)
(Eingriffe) Biografie Bieringer Giraffe
billigeren bisherigen
Handgriffe billigen
Tabelle: Korrekturvorschläge zu einigen Rechtschreibfehlern wie sie einerseits mit dem Trigramm-Ähnlichkeitsmaß, andererseits von dem Textverarbeitungsprogramm Microsoft Word für Windows Version 6.0a geliefert werden.

 


next up previous contents index
Next: Korrekturvorschläge unter Berücksichtigung des Up: Kontextorientierte Fehlererkennung und -korrektur Previous: Kontextorientierte Fehlererkennung und -korrektur

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997