Wie die Ergebnisse zeigen, führt das Sparse-Data-Problem dazu, daß in durchschnittlichen Texten sehr viel mehr Bigramme mit Korpushäufigkeit Null vorliegen als tatsächlich Kontextfehler vorhanden sind. Es wäre daher wünschenswert, unter den Bigrammen mit Korpushäufigkeit Null in der Weise zu differenzieren, daß unzulässige Bigramme von zulässigen getrennt werden. Von Gale & Church (1990) sowie Church & Gale (1991) werden Verfahren vorgeschlagen, die eine Korrektur der durch das Sparse-Data-Problem hervorgerufenen Schätzfehler erreichen können.
Diese beruhen im wesentlichen auf zwei Annahmen:
Die zweite Annahme, die aus der Populationsbiologie übernommen wurde (Good, 1953), ist für die vorliegende Betrachtung irrelevant, da sie nicht - wie hier gefordert - Bigramme mit gleicher beobachteter Korpushäufigkeit (hier Null) differenziert. Zur Beurteilung der ersten Annahme sollte man sich zunächst vergegenwärtigen, daß die korrigierten Auftretenswahrscheinlichkeiten fast aller Bigramme mit einer beobachteten Korpushäufigkeit von Null tatsächlich ungleich Null sein sollten. Für solche Bigramme liegt die tatsächliche Auftretenswahrscheinlichkeit umso näher bei Null, je genauer der Schätzwert ist, d. h. je größer die Korpushäufigkeiten der beiden am Bigramm beteiligten Wörter sind. Bigramme mit einer beobachteten Auftretenshäufigkeit von Null können demnach durch die Berechnung eines Korrekturwertes k differenziert werden:
Hierbei sind
und
die beobachteten Korpushäufigkeiten
der am Bigramm beteiligten Wörter.
Abbildung: Anzahl fehlerhafte Bigramme F versus Rangplätze R
der korrigierten
Bigramm-Häufigkeiten. Zum Vergleich sind die Kurven für ideales
(alle fehlerhaften Bigramme sind auf den vordersten Rangplätzen)
und zufälliges Verhalten (die fehlerhaften Bigramme verteilen sich
gleichmäßig auf alle Rangplätze) mit eingezeichnet.
Abbildung
zeigt den Zusammenhang
zwischen den Rangplätzen dieser korrigierten Korpushäufigkeiten
und der Anzahl der Kontextfehler, die auf Bigramme bis zum
jeweiligen Rangplatz entfallen. Es war erwartet worden, daß
sich die zu einem Kontextfehler gehörenden 125 Bigramme
vorwiegend auf den vorderen Rangplätzen befinden. Diese
Erwartung bestätigte sich jedoch nicht. Stattdessen verteilen
sich diese Bigramme fast gleichmäßig auf alle Rangplätze.
Der mittlere Rangplatz beträgt 1060,9, liegt also in der
Nähe des Zufallswertes von 1213,5.
Demnach läßt sich durch eine Korrektur der Schätzwerte von Bigramm-Häufigkeiten auf der Basis obiger Annahmen die Fehlerdiagnose kaum verbessern. Da gerade bei der Korrektur von Null-Häufigkeiten die deutlichsten Verbesserungen zu erwarten wären, spricht dieses Ergebnis gegen die Wirksamkeit der von Gale & Church (1990) vorgeschlagenen Methoden.
Eine andere Möglichkeit, das Sparse-Data-Problem in den Griff
zu bekommen, beruht auf der maschinellen Bestimmung von Wortklassen .
Hierbei sollen solche Wörter zusammengefaßt werden, die syntaktisch
gleichartige Funktionen übernehmen können. Ein entsprechendes
Verfahren wird in Kapitel
angegeben. Bei der
Einteilung in Wortklassen geht es in diesem Fall nicht darum,
die große Anzahl unterschiedlicher Wortformen auf eine möglichst kleine
Anzahl von Wortarten zu reduzieren. Stattdessen soll lediglich
für jedes Wort eine Anzahl anderer Wörter gefunden werden, durch
die es an möglichst allen Auftretenspositionen ersetzt werden kann,
ohne daß die syntaktische Richtigkeit des betroffenen Satzes
beeinträchtigt wird.
Bei mehrdeutigen Wörtern setzt dies beispielsweise voraus, daß
die übrigen Wörter derselben Wortgruppe dieselbe Mehrdeutigkeit
aufweisen. Mit Hilfe verfügbarer Morphologieprogramme kann die
Bestimmung solcher Wortgruppen automatisch vorgenommen
werden.
Soll nun geprüft werden, ob an Wortposition i ein Kontextfehler
vorliegt, wird nicht überprüft, ob Wort i als Nachfolger von
Wort i-1 auftreten kann, sondern ob eines der Wörter, die
derselben Wortgruppe angehören wie i, als Nachfolger irgendeines
der Wörter, die der Gruppe von i-1 angehören, auftreten kann.
Entsprechendes gilt für die Überprüfung, ob Wort i als
Vorgänger von Wort i+1 auftreten kann. Durch diese
Vorgehensweise wird das Sparse-Data-Problem entscheidend
entschärft. Werden etwa die Korpushäufigkeiten der Wörter
i und i-1 mit
und
bezeichnet, die Summenhäufigkeiten
von Vertretern der Wortgruppen von i und i-1 hingegen
mit
und
, so erhöht sich die Wahrscheinlichkeit,
daß im Korpus eine zur Folge von i-1 und i äquivalente
Wortfolge gefunden wird um einen Faktor v, der sich wie
folgt ergibt:
Die bisherigen Vorschläge berücksichtigen jeweils nur
die direkten Nachbarn des fehlerhaften Wortes.
Beobachtungen an Versuchspersonen zeigten jedoch, daß es diesen
oftmals schwer fiel, einen Kontextfehler richtig zu
korrigieren, wenn ihnen nur die Nachbarwörter vorlagen
(vergl. Kapitel
).
Dies läßt es wünschenswert erscheinen, daß auch
das Korrekturprogramm einen weiteren Kontext berücksichtigt.
Dem steht jedoch wiederum das Sparse-Data-Problem entgegen, das
schon bei Bigrammen gravierend ist.
Mit Hilfe eines Wortarten-Taggers (vergl. Kapitel
) ließe
sich hingegen die Wortart des zu korrigierenden Wortes
unter Berücksichtigung der Wortarten der Wörter einer
weiteren Umgebung ermitteln. Unter den Wörtern dieser
Wortart könnte anschließend der Korrekturvorschlag
als assoziative Antwort auf die Umgebungswörter berechnet
werden (s. Kapitel
).