next up previous contents index
Next: Simulationsergebnisse Up: Vorgehensweise Previous: Textbasis

Bestimmung der Assoziationsstärken

Zur Bestimmung des gemeinsamen Auftretens der Wörter in der Textbasis wird für jedes interessierende Stimuluswort ermittelt, an welchen Stellen im Text es vorkommt und welche anderen Wörter in seiner Umgebung auftreten. Als Umgebung wird ein Bereich von tex2html_wrap_inline23456 12 Wörtern vom Stimuluswort angesehen. Innerhalb dieses 25 Wörter umfassenden Fensters  wird der genaue Abstand der Wörter untereinander nicht berücksichtigt. Für jedes Paar von Wörtern ergibt sich somit ein Wert für die Häufigkeit des gemeinsamen Auftretens. Diese Häufigkeiten können in eine Matrix nach Art der Tabelle gif eingetragen werden.

 

blau Blume Pflanze rot Himmel Stamm
blau - 69 66 872 158 5
Blume 69 - 213 116 0 77
Pflanze 66 213 - 94 0 267
rot 872 116 94 - 23 18
blau 158 0 0 23 - 0
Stamm 5 77 267 18 0 -
Tabelle: Beispiel für eine Häufigkeitsmatrix  bestehend aus sechs Wörtern

 

Erwartungsgemäß ergeben sich für hochfrequente Wörter (insbesondere Funktionswörter) in der Regel hohe Werte für die Häufigkeiten des gemeinsamen Auftretens mit Stimuluswörtern, während seltene Wörter zumeist niedrige Werte erhalten. Deshalb ist es nicht sinnvoll, diese Häufigkeiten des gemeinsamen Auftretens direkt als Assoziationsstärken zwischen den Wörtern zu betrachten. Church & Hanks (1990), McDonald et al. (1990) sowie Rapp & Wettler (1991b) diskutieren eine Reihe von Formeln, die es erlauben, aus den Häufigkeiten des gemeinsamen Auftretens von Wörtern unter Berücksichtigung der Korpushäufigkeiten der Einzelwörter Assoziationsstärken  zu berechnen. Nach Wettler, Rapp & Ferber (1993) läßt sich die Formel 

equation257

nach psychologischen Lerngesetzen rechtfertigen. Hierbei ist tex2html_wrap_inline23458 die Assoziationsstärke zwischen den Wörtern i und j, tex2html_wrap_inline23464 ist die Häufigkeit des gemeinsamen Auftretens der Wörter i und j, und H(j) ist die Korpushäufigkeit des Wortes j. Da bei dieser Formel allerdings H(j) im Nenner steht, haben Schätzfehler  bei seltenen Wörtern starke Auswirkungen auf die berechneten Assoziationsstärken. Deshalb wurde die folgende Fallunterscheidung eingeführt, die Wörter mit niedrigen Korpushäufigkeiten unterdrückt (vergl. Wettler & Rapp, 1993b).

  equation266

Die besten Ergebnisse wurden für tex2html_wrap_inline23476 erzielt.gif Die Parameter tex2html_wrap_inline23478 und tex2html_wrap_inline23480 erwiesen sich als recht unkritisch. Zur Vereinfachung der Parameterschätzung  wurde von einem identischen Wert für tex2html_wrap_inline23478 und tex2html_wrap_inline23480 ausgegangen, der auf 0,000 005 festgesetzt wurde.

Trotz einiger Schwächengif ergaben sich mit dieser Formel die bislang besten Resultate. Wesentlich ist, daß durch die Formel berücksichtigt wird, daß Versuchspersonen  im Assoziationsexperiment in der Regel mit geläufigen Wörtern, also solchen mit hoher Korpushäufigkeit, antworten. Dies erlaubt es, Wörter mit niedrigen Korpushäufigkeiten, deren Schätzwerte für die Kookkurrenzhäufigkeiten große statistische Schwankungen aufweisen, zu unterdrücken.


next up previous contents index
Next: Simulationsergebnisse Up: Vorgehensweise Previous: Textbasis

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997