Bei der Generierung von Wörterbüchern aus zweisprachig vorliegenden
Texten (vergl. Kapitel
) wurde die Beobachtung gemacht,
daß in der Regel die Übersetzung eines Wortes im übersetzten Text
etwa gleich häufig ist wie das Ausgangswort im Originaltext.
Es stellt sich die
Frage, ob sich zwischen den Stimulus/Response-Paaren des
Russell-Experimentes bezüglich ihrer Korpushäufigkeiten
eine ähnliche Beziehung feststellen läßt. Unter der Annahme, daß zwei Wörter genau dann eine maximale assoziative Verbindungsstärke aufweisen, wenn sie an allen Auftretenspositionen im Text gemeinsam, nie aber einzeln auftreten, müßten die an Stimulus/Response-Paaren beteiligten
Wörter gleiche Korpushäufigkeiten besitzen. Zur Überprüfung
dieser Hypothese wurden in Abb.
die Korpushäufigkeiten der Stimuluswörter gegen die Korpushäufigkeiten der Responses im doppelt logarithmischen Maßstab aufgetragen. Die sich
ergebende Punktwolke zeigt wie erwartet im Bereich der Winkelhalbierenden eine etwas höhere Dichte als in den äußeren Bezirken.
Abbildung: Korpushäufigkeit des Stimulus
versus
Korpushäufigkeit der Primärantort
für die deutschen
Assoziationsnormen nach Russell & Meseck (Russell, 1970).
Abbildung: Korpushäufigkeit des Stimulus
versus
Korpushäufigkeit der Primärantort
für die englischen
Assoziationsnormen nach Russell & Jenkins (Jenkins, 1970).
Abbildung: Korpushäufigkeit des Stimulus
versus
Korpushäufigkeit der Primärantort
für den
Edinburgh Associative Thesaurus.
Abbildung: Anzahl der Primärantworten
(untere Kurve)
im Vergleich zur Anzahl der Wörter im Gesamtvokabular (obere Kurve)
in Abhängigkeit von der Korpushäufigkeit
der jeweiligen Wörter.
Für das Englische ist dieser Effekt jedoch sowohl auf der
Basis der Assoziationsnormen nach Russell & Jenkins, als auch auf
der Basis des Edinburgh Associative Thesaurus kaum ausgeprägt
(vergl. die Abbildungen
und
).
Insbesondere aus Abb.
läßt sich
jedoch eine andere, für die Simulation wichtige Aussage ableiten,
nämlich daß Wörter mit niedrigen Korpushäufigkeiten
nur selten als Primärantworten auftreten. Abb.
stellt die Anzahl der Primärantworten
einer bestimmten Korpushäufigkeit im EAT der Anzahl der Wörter derselben Korpushäufigkeit im Gesamtvokabular gegenüber.
So haben etwa im EAT nur 12 von 7868 Primärantworten die Korpushäufigkeit 1, während im Vokabular über 100 000 von
insgesamt 309 334 Wörtern die Korpushäufigkeit 1 aufweisen.
Aus Abb.
läßt sich weiterhin ablesen,
daß fast alle Wörter mit Korpushäufigkeiten zwischen 1000 und
10 000 von den Versuchspersonen als Primärantworten gegeben
werden. Mit den noch häufigeren Funktionswörtern wird hingegen
nur selten geantwortet. Es ist zu vermuten, daß
diese Effekte noch deutlicher wären, wenn das verwendete
Korpus die in der Alltagssprache vorkommenden Worthäufigkeiten
genauer widerspiegeln würde. In jedem Falle sollten diese
Häufigkeitseffekte bei einer Simulation berücksichtigt werden.
In sehr einfacher Form könnte dies beispielsweise in der Weise
geschehen, daß Wörter mit Korpushäufigkeiten unter 10
unterdrückt werden. Dadurch reduziert sich das Vokabular um
mehr als die Hälfte, und gleichzeitig werden genau diejenigen
Wörter eliminiert, deren Kookkurrenzwerte besonders unsicher
sind. Eine etwas kompliziertere Möglichkeit, die Häufigkeitseffekte
zu berücksichtigen, bestünde darin, für jede vorkommende
Korpushäufigkeit eine Wahrscheinlichkeit zu berechnen, mit der
ein Wort dieser Korpushäufigkeit als Primärantwort verwendet wird
(Quotient der Primärantworten des EAT mit dieser Häufigkeit durch die
Gesamtzahl aller Wörter dieser Häufigkeit im Vokabular), und diese
Wahrscheinlichkeit in der Assoziationsformel zu berücksichtigen.