next up previous contents index
Next: Berücksichtigung der Wortart Up: Ansätze zur Verbesserung der Previous: Zusammenhang zwischen Stimulus- und

 

Kookkurrenzhäufigkeit relativ zu einer Referenzgruppe

 

Bei der Berechnung von Assoziationen müssen die unterschiedlichen Korpushäufigkeiten der betrachteten Wörter, die sich in einem Bereich von etwa 6 Zehnerpotenzen bewegen, berücksichtigt werden. Bei in der Literatur häufig verwendeten Assoziationsformeln in der Art von

  equation6499

geschieht dies dadurch, daß die ausgezählten Kookkurrenzhäufigkeiten zu den Korpushäufigkeiten der betrachteten Wörter ins Verhältnis gesetzt werden (vergl. Church & Hanks, 1990, sowie Rapp & Wettler, 1991b). Formel gif hat aber den Nachteil, daß sie häufige Wörter stark benachteiligt. Haben beispielsweise zwei Wörter i und j, jeweils mit Korpushäufigkeit 1, eine Kookkurrenzhäufigkeit von ebenfalls 1, so wird ihnen eine Assoziationsstärke von 1 zugeordnet. Weisen die beiden Wörter hingegen Korpushäufigkeiten von jeweils 10 und eine Kookkurrenzhäufigkeit von ebenfalls 10 auf, so reduziert sich die Assoziationsstärke auf 1/10, obwohl hier die maximale Kookkurrenzhäufigkeit vorliegtgif.

Eine diesen Nachteil vermeidende Methode zur Bestimmung von Assoziationsstärken besteht darin, die für zwei Wörter ausgezählte Kookkurrenzhäufigkeit mit den für eine Referenzgruppe  von Wörtern mit gleichen Korpushäufigkeiten gemessenen Kookkurrenzhäufigkeiten zu vergleichen. Die Vorgehensweise sei am Beispiel zweier Wörter i und j mit Korpushäufigkeiten H(i) und H(j) verdeutlicht, für die eine Kookkurrenzhäufigkeit tex2html_wrap_inline23464 ausgezählt worden sei. Benötigt werden die Kookkurrenzhäufigkeiten aller möglichen Wortpaare, die sich unter der Bedingung bilden lassen, daß die Korpushäufigkeit des ersten Wortes H(i) ist, die des zweiten Wortes hingegen H(j). Die Assoziationsstärke zwischen i und j ergibt sich dann als normierter Rangplatz von tex2html_wrap_inline23464 in einer sortierten Liste der Kookkurrenzhäufigkeiten aller gebildeten Wortpaare. Bei Normierung auf eine Prozentskala ergibt sich folgende Formel:

  equation6508

Hierbei ist tex2html_wrap_inline23880 der Prozentsatz derjenigen Wortpaare, deren Kookkurrenzhäufigkeit kleiner ist als tex2html_wrap_inline23464 , und tex2html_wrap_inline23884 der Prozentsatz der Wortpaare mit Kookkurrenzhäufigkeit gleich tex2html_wrap_inline23464 .

 

tex2html_wrap_inline23464 H(i)=10; H(j)=10 H(i)=10; H(j)=20 H(i)=20; H(j)=20
0 99,981430 99,964162 99,932157
1 0,015742 0,030680 0,057576
2 0,002119 0,003892 0,007901
3 0,000314 0,000560 0,001043
4 0,000182 0,000389 0,000542
5 0,000056 0,000105 0,000160
6 0,000043 0,000056 0,000221
7 0,000013 0,000036 0,000060
8 0,000041 0,000040 0,000060
9 0,000009 0,000016 0,000020
10 0,000032 0,000033 0,000020
11 0,000004 0,000003 0,000000
12 0,000006 0,000013 0,000000
13 0,000000 0,000007 0,000020
14 0,000006 0,000007 0,000000
15 0,000000 0,000000 0,000020
16 0,000002 0,000000 0,000020
17 0,000000 0,000000 0,000020
18 0,000000 0,000000 0,000000
Tabelle: Prozentualer Anteil der Kookkurrenzhäufigkeiten von 0 bis 18 für drei Kombinationen von Stimulus- und Response-Häufigkeiten. Den Daten liegen alle 9609 Wörter mit Korpushäufigkeit 10 und alle 3158 Wörter mit Korpushäufigkeit 20 zugrunde. Da ein Wortpaar in einem Textfenster mehrfach auftreten kann, können sich in seltenen Fällen Kookkurrenzhäufigkeiten ergeben, die größer als die Korpushäufigkeiten der beteiligten Wörter sind (vergl. die Zeilen 11, 12, 14 und 16 der linken Spalte, deren Einträge ungleich Null sind).

 

   figure6525
Abbildung: Anzahl tex2html_wrap_inline23839 von Wörtern in Abhängigkeit ihrer Korpushäufigkeit tex2html_wrap_inline23841 im 46 Millionen Wörter umfassenden deutschen Korpus.

Für die Assoziationsstärken ergeben sich damit Werte zwischen 0 und 100. Die Extremwerte können nur dann erreicht werden, wenn das betrachtete Wortpaar eine kleinere bzw. größere Kookkurrenzhäufigkeit aufweist als alle anderen Wortpaare derselben Häufigkeitskategorie. Tabelle gif zeigt für einige Kombinationen von H(i) und H(j) den Anteil der Wortpaare bestimmter Kookkurrenzhäufigkeiten. Die Assoziationsstärke zwischen zwei Wörtern i und j mit Korpushäufigkeiten H(i) = H(j) = 20 und einer gemessenen Kookkurrenzhäufigkeit tex2html_wrap_inline23464 von 2 ergäbe sich unter Verwendung von Werten aus der rechten Spalte zu

eqnarray6572

Listen der Häufigkeiten von Kookkurrenzhäufigkeiten in der Art von Tabelle gif erlauben es, die Unsicherheit  der für zwei Wörter i und j gemessenen Kookkurrenzhäufigkeit tex2html_wrap_inline23464 zu berücksichtigen. So könnte etwa angenommen werden, daß tex2html_wrap_inline23464 mit gleicher Wahrscheinlichkeit um plus oder minus eins schwankt. Die korrigierte Assoziationsstärke ergibt sich dann aus dem Mittelwert der für die drei Kookkurrenzhäufigkeiten tex2html_wrap_inline23924 , tex2html_wrap_inline23464 und tex2html_wrap_inline23928 berechneten Assoziatonsstärken. Die nichtlineare Kennlinie von Formel gif bewirkt, daß diese Mittelung zu einer Schwächung niedriger Kookkurrenzhäufigkeiten führt, die auf Grund deren größerer Varianz gerechtfertigt ist.

Ein praktisches Problem stellt die hohe Anzahl der zu berechnenden Listen der Häufigkeiten von Kookkurrenzhäufigkeiten dar, die sich grundsätzlich aus dem Quadrat der Anzahl der möglichen Korpushäufigkeiten von Wörtern ergibt. In der Praxis wird man deswegen, aber auch um die Anzahl der Wörter einer Referenzgruppe  ausreichend hoch zu halten, Bereiche beisammen liegender Korpushäufigkeiten zusammenfassen. In diesem Fall ist es allerdings im Interesse der Chancengleichheit innerhalb einer Referenzgruppe notwendig, sich in den Histogrammen nicht mehr direkt auf die Kookkurrenzhäufigkeiten tex2html_wrap_inline23464 , sondern stattdessen auf den Quotienten tex2html_wrap_inline23932 zu beziehen. Abb. gif zeigt, wie die Anzahl der Wörter einer bestimmten Korpushäufigkeit mit zunehmender Korpushäufigkeit stark abnimmt (vergl. auch die entsprechende Kurve für das Englische in Abb. gif). Bei einer Korpusgröße von 46 Millionen Wörtern und einem Minimum von 1000 Wörtern pro Referenzgruppe ergab sich auf Grund dieser Charakteristik eine Gesamtzahl von 89 * 89 = 7921 Referenzgruppen.

Die in Probeläufen erhaltenen Ergebnisse zeigen, daß die mit dieser Methode berechneten Assoziationen weitgehend unabhängig von den Korpushäufigkeiten der betrachteten Wörter sind, d. h. die Assoziationsstärke zwischen zwei Wörtern hängt kaum mehr von ihren Auftretenshäufigkeiten ab, sondern fast ausschließlich von den relativen Auftretenspositionen. Da es aber viel mehr seltene als häufige Wörter gibt, dominieren diese in den generierten Assoziationslisten. Deshalb muß zusätzlich berücksichtigt werden, daß Versuchspersonen meist häufige Inhaltswörter assoziieren (vergl. Abschnitt gif).


next up previous contents index
Next: Berücksichtigung der Wortart Up: Ansätze zur Verbesserung der Previous: Zusammenhang zwischen Stimulus- und

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997