next up previous contents index
Next: Zusammenfassung und Ausblick Up: Kontextsensitive Rechtschreibfehlerkorrektur Previous: Evaluierung

Schätzfehler

 

Wie die Ergebnisse zeigen, führt das Sparse-Data-Problem  dazu, daß in durchschnittlichen Texten sehr viel mehr Bigramme mit Korpushäufigkeit Null vorliegen als tatsächlich Kontextfehler vorhanden sind. Es wäre daher wünschenswert, unter den Bigrammen mit Korpushäufigkeit Null in der Weise zu differenzieren, daß unzulässige Bigramme von zulässigen getrennt werden. Von Gale & Church (1990) sowie Church & Gale (1991) werden Verfahren vorgeschlagen, die eine Korrektur der durch das Sparse-Data-Problem hervorgerufenen Schätzfehler erreichen können.

Diese beruhen im wesentlichen auf zwei Annahmen:

Die zweite Annahme, die aus der Populationsbiologie  übernommen wurde (Good, 1953), ist für die vorliegende Betrachtung irrelevant, da sie nicht - wie hier gefordert - Bigramme mit gleicher beobachteter Korpushäufigkeit (hier Null) differenziert. Zur Beurteilung der ersten Annahme sollte man sich zunächst vergegenwärtigen, daß die korrigierten Auftretenswahrscheinlichkeiten fast aller Bigramme mit einer beobachteten Korpushäufigkeit von Null tatsächlich ungleich Null sein sollten. Für solche Bigramme liegt die tatsächliche Auftretenswahrscheinlichkeit umso näher bei Null, je genauer der Schätzwert ist, d. h. je größer die Korpushäufigkeiten der beiden am Bigramm beteiligten Wörter sind. Bigramme mit einer beobachteten Auftretenshäufigkeit von Null können demnach durch die Berechnung eines Korrekturwertes k differenziert werden:

equation16600

Hierbei sind tex2html_wrap_inline25341 und tex2html_wrap_inline25343 die beobachteten Korpushäufigkeiten der am Bigramm beteiligten Wörter.

   figure16604
Abbildung: Anzahl fehlerhafte Bigramme F versus Rangplätze R der korrigierten Bigramm-Häufigkeiten. Zum Vergleich sind die Kurven für ideales (alle fehlerhaften Bigramme sind auf den vordersten Rangplätzen) und zufälliges Verhalten (die fehlerhaften Bigramme verteilen sich gleichmäßig auf alle Rangplätze) mit eingezeichnet.

Abbildung gif zeigt den Zusammenhang zwischen den Rangplätzen dieser korrigierten Korpushäufigkeiten und der Anzahl der Kontextfehler, die auf Bigramme bis zum jeweiligen Rangplatz entfallen. Es war erwartet worden, daß sich die zu einem Kontextfehler gehörenden 125 Bigramme vorwiegend auf den vorderen Rangplätzen befinden. Diese Erwartung bestätigte sich jedoch nicht. Stattdessen verteilen sich diese Bigramme fast gleichmäßig auf alle Rangplätze. Der mittlere Rangplatz beträgt 1060,9, liegt also in der Nähe des Zufallswertes von 1213,5.

Demnach läßt sich durch eine Korrektur der Schätzwerte von Bigramm-Häufigkeiten auf der Basis obiger Annahmen die Fehlerdiagnose kaum verbessern. Da gerade bei der Korrektur von Null-Häufigkeiten die deutlichsten Verbesserungen zu erwarten wären, spricht dieses Ergebnis gegen die Wirksamkeit der von Gale & Church (1990) vorgeschlagenen Methoden.

Eine andere Möglichkeit, das Sparse-Data-Problem in den Griff zu bekommen, beruht auf der maschinellen Bestimmung von Wortklassen . Hierbei sollen solche Wörter zusammengefaßt werden, die syntaktisch gleichartige Funktionen übernehmen können. Ein entsprechendes Verfahren wird in Kapitel gif angegeben. Bei der Einteilung in Wortklassen geht es in diesem Fall nicht darum, die große Anzahl unterschiedlicher Wortformen auf eine möglichst kleine Anzahl von Wortarten zu reduzieren. Stattdessen soll lediglich für jedes Wort eine Anzahl anderer Wörter gefunden werden, durch die es an möglichst allen Auftretenspositionen ersetzt werden kann, ohne daß die syntaktische Richtigkeit des betroffenen Satzes beeinträchtigt wird. Bei mehrdeutigen Wörtern setzt dies beispielsweise voraus, daß die übrigen Wörter derselben Wortgruppe dieselbe Mehrdeutigkeit aufweisen. Mit Hilfe verfügbarer Morphologieprogramme kann die Bestimmung solcher Wortgruppen automatisch vorgenommen werden.gif

Soll nun geprüft werden, ob an Wortposition i ein Kontextfehler vorliegt, wird nicht überprüft, ob Wort i als Nachfolger von Wort i-1 auftreten kann, sondern ob eines der Wörter, die derselben Wortgruppe angehören wie i, als Nachfolger irgendeines der Wörter, die der Gruppe von i-1 angehören, auftreten kann. Entsprechendes gilt für die Überprüfung, ob Wort i als Vorgänger von Wort i+1 auftreten kann. Durch diese Vorgehensweise wird das Sparse-Data-Problem entscheidend entschärft. Werden etwa die Korpushäufigkeiten der Wörter i und i-1 mit tex2html_wrap_inline25341 und tex2html_wrap_inline25373 bezeichnet, die Summenhäufigkeiten von Vertretern der Wortgruppen von i und i-1 hingegen mit tex2html_wrap_inline25379 und tex2html_wrap_inline25381 , so erhöht sich die Wahrscheinlichkeit, daß im Korpus eine zur Folge von i-1 und i äquivalente Wortfolge gefunden wird um einen Faktor v, der sich wie folgt ergibt:

equation16650

Die bisherigen Vorschläge berücksichtigen jeweils nur die direkten Nachbarn des fehlerhaften Wortes. Beobachtungen an Versuchspersonen zeigten jedoch, daß es diesen oftmals schwer fiel, einen Kontextfehler richtig zu korrigieren, wenn ihnen nur die Nachbarwörter vorlagen (vergl. Kapitel gif). Dies läßt es wünschenswert erscheinen, daß auch das Korrekturprogramm einen weiteren Kontext berücksichtigt. Dem steht jedoch wiederum das Sparse-Data-Problem entgegen, das schon bei Bigrammen gravierend ist. Mit Hilfe eines Wortarten-Taggers  (vergl. Kapitel gif) ließe sich hingegen die Wortart des zu korrigierenden Wortes unter Berücksichtigung der Wortarten der Wörter einer weiteren Umgebung ermitteln. Unter den Wörtern dieser Wortart könnte anschließend der Korrekturvorschlag als assoziative Antwort auf die Umgebungswörter berechnet werden (s. Kapitel gif).


next up previous contents index
Next: Zusammenfassung und Ausblick Up: Kontextsensitive Rechtschreibfehlerkorrektur Previous: Evaluierung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997