Die Assoziationsformel
ist in mehrfacher
Hinsicht problematisch. Zum einen ist sie
nicht in der Lage, die Assoziationsstärken eines
Stimulus zu Wörtern mit Kookkurrenzhäufigkeit
Null zu unterscheiden. Intuitiv ist jedoch klar,
daß einem Wort mit höherer Korpushäufigkeit
gegenüber einem Wort mit kleinerer Korpushäufigkeit
eine niedrigere Assoziationsstärke zugeordnet
werden sollte, wenn beide eine Kookkurrenzhäufigkeit von Null aufweisen.
Zum anderen berücksichtigt die Formel nicht, daß kleine zufällige
Schwankungen der Korpus- oder Kookkurrenzhäufigkeiten bei
seltenen Wörtern nach dem Gesetz der großen Zahlen zu viel
gravierenderen Fehlern führen als bei häufigen.
Die hier angesprochenen Probleme lassen sich folgendermaßen präzisieren: Gegeben sei ein Text A, der durch einen bestimmten Zufallsprozeß erzeugt wurde. Die Kookkurrenzhäufigkeiten der Wörter in diesem Text seien bekannt. Die Frage ist nun, wie groß die Erwartungswerte der Kookkurrenzhäufigkeiten der Wörter in einem Text B von derselben Länge sind, wenn dieser durch denselben Prozeß erzeugt wurde.
Bei der Untersuchung der Häufigkeiten, mit denen Wörter
in Texten direkt aufeinanderfolgen, sind Gale & Church
(1990) auf ein äquivalentes Problem gestoßen. Gale & Church
diskutieren verschiedene Möglichkeiten, die gemessenen Kookkurrenzhäufigkeiten r zu korrigieren.
Zum einen schlagen sie vor, zur gemessenen Häufigkeit
0,5 zu addieren (
, ``expected likelihood estimator'' ).
Ein weiterer Vorschlag, die Minimax-Methode , bezieht die
Anzahl der Wörter im Korpus N ein:
.
Zu den besten Ergebnissen kommen Gale & Church mit der
Good-Turing-Methode :
. Hierbei ist
die Häufigkeit, mit der die Kookkurrenzhäufigkeit
r auftritt. Alle drei Korrekturformeln erreichen, daß die
Assoziationsstärken von Wortpaaren mit Kookkurrenzhäufigkeit
Null in Abhängigkeit von den Korpushäufigkeiten der beiden
Wörter - wenn auch auf unterschiedliche Weise - differenziert werden.
Bei Verwendung nicht linearer Assoziationsformeln kann der
Einfluß zufälliger Schwankungen der gemessenen
Kookkurrenzhäufigkeiten auch dadurch vermindert
werden, daß für jeden gemessenen Kookkurrenzwert
eine Schwankungsbreite angenommen und diese bei der
Berechnung der Assoziationsstärke berücksichtigt wird.
Im einfachsten Fall könnte dies so aussehen, daß
für jede gemessene Kookkurrenzhäufigkeit eine
Toleranz von
1 angenommen und ein Mittelwert
mehrerer Assoziationswerte gebildet wird.
Wenn die verwendete nicht lineare Assoziationsformel
mit
bezeichnet wird,
ergibt sich für die Berechnung der Assoziationsstärke
zwischen zwei Wörtern i und j folgende Formel:
Simulationen mit diesen Methoden haben gezeigt, daß sich die
so berechneten Assoziationen etwas verbessern. Der Einfluß
ist aber nur für niedrige Kookkurrenzhäufigkeiten
bzw. Assoziationsstärken merklich. Dementsprechend ergeben
sich in erster Linie auf mittleren bis hinteren
Rangplätzen Verbesserungen, während sich die
Rangfolge auf den vorderen Rangplätzen kaum
ändert. Dieses Ergebnis wird durch vergleichbare
Untersuchungen im Zusammenhang mit der maschinellen
Rechtschreibfehlerkorrektur (vergl. Kapitel
)
bestätigt.