Bei der Berechnung von Assoziationen müssen die unterschiedlichen Korpushäufigkeiten der betrachteten Wörter, die sich in einem Bereich von etwa 6 Zehnerpotenzen bewegen, berücksichtigt werden. Bei in der Literatur häufig verwendeten Assoziationsformeln in der Art von
geschieht dies dadurch, daß die ausgezählten
Kookkurrenzhäufigkeiten zu den Korpushäufigkeiten der
betrachteten Wörter ins Verhältnis gesetzt werden
(vergl. Church & Hanks, 1990, sowie Rapp & Wettler, 1991b).
Formel
hat aber den Nachteil, daß sie häufige
Wörter stark benachteiligt. Haben beispielsweise
zwei Wörter i und j, jeweils mit Korpushäufigkeit 1,
eine Kookkurrenzhäufigkeit von ebenfalls 1, so wird
ihnen eine Assoziationsstärke von 1 zugeordnet.
Weisen die beiden Wörter hingegen Korpushäufigkeiten
von jeweils 10 und eine Kookkurrenzhäufigkeit von
ebenfalls 10 auf, so reduziert sich die Assoziationsstärke
auf 1/10, obwohl hier die maximale Kookkurrenzhäufigkeit
vorliegt
.
Eine diesen Nachteil vermeidende Methode zur Bestimmung von
Assoziationsstärken besteht darin,
die für zwei Wörter ausgezählte Kookkurrenzhäufigkeit
mit den für eine Referenzgruppe von Wörtern
mit gleichen Korpushäufigkeiten gemessenen
Kookkurrenzhäufigkeiten zu vergleichen.
Die Vorgehensweise sei am Beispiel zweier Wörter
i und j mit Korpushäufigkeiten H(i) und
H(j) verdeutlicht, für die eine Kookkurrenzhäufigkeit
ausgezählt worden sei. Benötigt
werden die Kookkurrenzhäufigkeiten aller
möglichen Wortpaare, die sich unter der Bedingung bilden lassen,
daß die Korpushäufigkeit des ersten Wortes H(i) ist,
die des zweiten Wortes hingegen H(j).
Die Assoziationsstärke zwischen i und j
ergibt sich dann als normierter Rangplatz von
in einer sortierten Liste der Kookkurrenzhäufigkeiten aller
gebildeten Wortpaare.
Bei Normierung auf eine Prozentskala ergibt sich folgende
Formel:
Hierbei ist
der Prozentsatz derjenigen Wortpaare, deren
Kookkurrenzhäufigkeit kleiner ist als
, und
der Prozentsatz der Wortpaare mit Kookkurrenzhäufigkeit gleich
.
|
| H(i)=10; H(j)=10 | H(i)=10; H(j)=20 | H(i)=20; H(j)=20 |
| 0 | 99,981430 | 99,964162 | 99,932157 |
| 1 | 0,015742 | 0,030680 | 0,057576 |
| 2 | 0,002119 | 0,003892 | 0,007901 |
| 3 | 0,000314 | 0,000560 | 0,001043 |
| 4 | 0,000182 | 0,000389 | 0,000542 |
| 5 | 0,000056 | 0,000105 | 0,000160 |
| 6 | 0,000043 | 0,000056 | 0,000221 |
| 7 | 0,000013 | 0,000036 | 0,000060 |
| 8 | 0,000041 | 0,000040 | 0,000060 |
| 9 | 0,000009 | 0,000016 | 0,000020 |
| 10 | 0,000032 | 0,000033 | 0,000020 |
| 11 | 0,000004 | 0,000003 | 0,000000 |
| 12 | 0,000006 | 0,000013 | 0,000000 |
| 13 | 0,000000 | 0,000007 | 0,000020 |
| 14 | 0,000006 | 0,000007 | 0,000000 |
| 15 | 0,000000 | 0,000000 | 0,000020 |
| 16 | 0,000002 | 0,000000 | 0,000020 |
| 17 | 0,000000 | 0,000000 | 0,000020 |
| 18 | 0,000000 | 0,000000 | 0,000000 |
Abbildung: Anzahl
von Wörtern in Abhängigkeit ihrer
Korpushäufigkeit
im 46 Millionen Wörter umfassenden
deutschen Korpus.
Für die Assoziationsstärken ergeben sich damit Werte zwischen 0 und
100. Die Extremwerte können nur dann erreicht werden, wenn das
betrachtete Wortpaar eine kleinere bzw. größere
Kookkurrenzhäufigkeit aufweist als alle anderen Wortpaare
derselben Häufigkeitskategorie.
Tabelle
zeigt für einige Kombinationen
von H(i) und H(j) den Anteil der Wortpaare bestimmter
Kookkurrenzhäufigkeiten. Die Assoziationsstärke
zwischen zwei Wörtern i und j mit Korpushäufigkeiten
H(i) = H(j) = 20 und einer gemessenen Kookkurrenzhäufigkeit
von 2 ergäbe sich unter Verwendung von Werten
aus der rechten Spalte zu
Listen der Häufigkeiten von Kookkurrenzhäufigkeiten in der Art von
Tabelle
erlauben es, die Unsicherheit der
für zwei Wörter i und j gemessenen Kookkurrenzhäufigkeit
zu berücksichtigen. So könnte etwa angenommen werden,
daß
mit gleicher Wahrscheinlichkeit
um plus oder minus eins schwankt.
Die korrigierte Assoziationsstärke ergibt sich dann
aus dem Mittelwert der für die drei Kookkurrenzhäufigkeiten
,
und
berechneten Assoziatonsstärken. Die nichtlineare Kennlinie
von Formel
bewirkt, daß diese
Mittelung zu einer Schwächung niedriger Kookkurrenzhäufigkeiten
führt, die auf Grund deren größerer Varianz gerechtfertigt ist.
Ein praktisches Problem stellt die hohe Anzahl der zu berechnenden
Listen der Häufigkeiten von Kookkurrenzhäufigkeiten
dar, die sich grundsätzlich aus dem Quadrat der Anzahl
der möglichen Korpushäufigkeiten von Wörtern ergibt.
In der Praxis wird man deswegen, aber auch um die Anzahl
der Wörter einer Referenzgruppe ausreichend hoch zu halten,
Bereiche beisammen liegender Korpushäufigkeiten zusammenfassen.
In diesem Fall ist es allerdings im Interesse der Chancengleichheit
innerhalb einer Referenzgruppe notwendig, sich in
den Histogrammen nicht mehr direkt auf die Kookkurrenzhäufigkeiten
, sondern stattdessen auf den Quotienten
zu beziehen. Abb.
zeigt,
wie die Anzahl der Wörter einer bestimmten Korpushäufigkeit
mit zunehmender Korpushäufigkeit stark abnimmt (vergl. auch
die entsprechende Kurve für das Englische in Abb.
).
Bei einer Korpusgröße von 46 Millionen Wörtern
und einem Minimum von 1000 Wörtern pro Referenzgruppe ergab sich auf
Grund dieser Charakteristik eine Gesamtzahl von 89 * 89 = 7921
Referenzgruppen.
Die in Probeläufen erhaltenen Ergebnisse zeigen, daß
die mit dieser Methode berechneten Assoziationen weitgehend
unabhängig von den Korpushäufigkeiten der betrachteten
Wörter sind, d. h. die Assoziationsstärke zwischen
zwei Wörtern hängt kaum mehr von ihren Auftretenshäufigkeiten ab,
sondern fast ausschließlich von den relativen
Auftretenspositionen. Da es aber viel mehr
seltene als häufige Wörter gibt, dominieren diese
in den generierten Assoziationslisten. Deshalb muß
zusätzlich berücksichtigt werden, daß
Versuchspersonen meist häufige Inhaltswörter assoziieren
(vergl. Abschnitt
).