next up previous contents index
Next: Syntagmatische versus paradigmatische Assoziationen Up: Ansätze zur Verbesserung der Previous: Ansätze zur Verbesserung der

 

Optimierung von Fenstergröße und -form

 

Um Kookkurrenzhäufigkeiten auszählen zu können, muß definiert werden, was unter dem gemeinsamen Auftreten von Wörtern zu verstehen ist. Hierfür gibt es unterschiedliche Möglichkeiten: So betrachten etwa Wettler & Rapp (1989) Kookkurrenzen in den Abstracts einer bibliographischen Datenbank, McDonald et al. (1990) hingegen Kookkurrenzen in den Wortdefinitionen des Longman Dictionary of Contemporary English. Rapp & Wettler (1991b) vergleichen die Kookkurrenzen in Sätzen mit solchen in Fenstern konstanter Länge, wie sie auch von Church & Hanks (1990) verwendet werden. Spence & Owens (1990) verwenden zwar ebenfalls Fenster konstanter Länge, definieren aber die Länge nicht über die Anzahl der Wörter, sondern über die Anzahl der Buchstaben. Uneinigkeit herrscht auch darüber, ob eine symmetrische oder eine asymmetrische Umgebung um das Stimuluswort betrachtet werden sollte.

Die folgenden Ausführungen beziehen sich ausschließlich auf die Optimierung der bereits in den Kapiteln gif und gif verwendeten symmetrischen Fenster mit einer konstanten Anzahl von Wörtern. Dort wurde das zum Auszählen der Kookkurrenzen verwendete Textfenster dadurch optimiert, daß die auf der Grundlage einer bestimmten Fenstergröße generierten Assoziationen mit denen von Versuchspersonen verglichen und die Übereinstimmung gemessen wurde. Die Fenstergröße, die zu einer maximalen Übereinstimmung führte, wurde als optimal angesehen.

Diese Vorgehensweise hat zwei wesentliche Nachteile. Einerseits ist - da jeweils die Assoziationen zu vielen Stimuli berechnet werden müssen - der benötigte Rechenaufwand so hoch, daß aus Zeitgründen in der Praxis nur wenige Variationen der Fensterparameter (Größe und Form) evaluiert werden können. Andererseits hängt die Qualität der generierten Assoziationen nicht nur vom gewählten Textfenster ab, sondern auch von der verwendeten Assoziationsformel . Wie sich zeigen läßt, sind die Art des Fensters und die gewählte Formel keine voneinander unabhängigen Variablen. So können sich für zwei unterschiedliche Assoziationsformeln zwei verschiedene Fenstertypen als optimal erweisen. (Beispielsweise kann es bei einer Assoziationsformel, die niedrige Kookkurrenzhäufigkeiten unterdrückt, für die Ergebnisse günstig sein, ein breiteres Fenster zu wählen.)

   figure542
Abbildung: Häufigkeit H des Auftretens der Primärantwort im Abstand A vom Stimuluswort, gemittelt über die 100 deutschen Stimulus/Response-Paare nach Russell & Meseck (1959). In großem Abstand vom Stimuluswort liegt die Häufigkeit des Auftretens einer Primärantwort im Mittel bei 0,50.

   figure899
Abbildung: Häufigkeit H des Auftretens der Primärantwort im Abstand A vom Stimuluswort, gemittelt über die 100 englischen Stimulus/Response-Paare nach Russell & Jenkins (1954). In großem Abstand vom Stimuluswort liegt die Häufigkeit des Auftretens einer Primärantwort im Mittel bei 0,49.

Eine alternative Möglichkeit, das nach Größe und Form optimale Fenster zu finden, besteht darin, für eine repräsentative Auswahl von Stimuluswörtern zu bestimmen, wo im Korpus sich die von den Versuchspersonen genannten assoziativen Antworten zum jeweiligen Stimuluswort befinden. Nach dem Assoziationsgesetz wäre zu erwarten, daß sich die auf ein bestimmtes Stimuluswort gegebenen assoziativen Antworten um die Auftretenspositionen dieses Stimuluswortes häufen. Die Art der Häufung bestimmt schließlich Form und Größe des Fensters. Bei dieser Art der Betrachtung entfallen oben genannte Einflüsse.

Abbildung gif zeigt über alle 100 Stimuluswörter des Assoziationsversuches nach Russell & Meseck (1959) gemittelt, in welcher relativen Umgebung vom Stimuluswort sich die von den Versuchspersonen jeweils meistgenannte assoziative Antwort befindet. In das Diagramm wurden deshalb nur die jeweils meistgenannten assoziativen Antworten einbezogen, weil diese sehr prägnant   sind und deshalb als besonders typische Assoziationen angesehen werden können. Würden auch Assoziationen, die nur von wenigen Versuchspersonen genannt wurden, berücksichtigt, würde das Diagramm an Schärfe verlieren, da diese Assoziationen möglicherweise eher zufällig zustande gekommen sind. In Abbildung gif findet sich die entsprechende Verteilung für die englischen Assoziationen nach Russell & Jenkins (1954).

Bei der Interpretation des Diagrammes ist die annähernde Symmetrie der Kurve von besonderem Interesse. Sie spricht dafür, daß die Reihenfolge von Stimulus und Response kaum von Belang ist. Aus der Form der Kurve läßt sich schließen, daß eine assoziative Verbindung zwischen zwei Wörtern umso weniger hergestellt wird, je größer ihr räumlicher Abstand im Korpus ist. Bei gesprochener oder gelesener Sprache entspricht dieser größere räumliche einem größeren zeitlichen Abstand, der Rückschlüsse auf die Speicherdauer im Kurzzeitgedächtnis  zuläßt.gif

Nach dem bisher Gesagten ist es allerdings erstaunlich, daß gemäß Abb. gif und gif zwischen zwei unmittelbar aufeinanderfolgenden Wörtern offenbar nur eine minimale assoziative Verbindung hergestellt wird. Zunächst könnte man daran denken, eine Inhibition unmittelbar aufeinanderfolgender Wörter anzunehmen. Eine solche wäre sehr geeignet, den bei der Simulation häufig auftretenden Fall, daß in Texten unmittelbar aufeinander folgende Wörter miteinander assoziiert werden (etwa Hand tex2html_wrap_inline23500 linke), zu unterdrücken (vergl. Tab. gif). Bei Betrachtung der Texte fällt jedoch auf, daß den 100 verwendeten Stimuluswörtern, bei denen es sich durchweg um Inhaltswörter handelt, syntaktisch bedingt zumeist Funktionswörter vorausgehen und nachfolgen. Deshalb ist auf diesen Positionen kein Platz mehr für Response-Wörter, die ja ebenfalls fast immer Inhaltswörter sind.

Bei den bisherigen Betrachtungen wurde aus Gründen der Einfachheit davon ausgegangen, daß für Stimuluswörter jedweder Korpushäufigkeit ein- und derselbe Fenstertyp optimal ist. Dies bedeutet jedoch, daß sich bei sehr häufigen Stimuluswörtern die Fenster oftmals gegenseitig überlappen, während bei seltenen Stimuluswörtern durch die geringe Fenstergröße nur wenige assoziative Verbindungen aufgebaut werden. Zur Untersuchung, ob sich die Häufigkeit eines Stimuluswortes auf die Fenstergröße auswirken sollte, wurden Stimuluswörter mit bekannten Primärantworten in mehrere Klassen unterteilt, deren Korpushäufigkeit sich jeweils um eine Zehnerpotenz unterschied.

Um zu erreichen, daß auf jede Klasse eine ausreichende Anzahl von Stimulus/Response-Paaren entfallen, werden Assoziationsnormen  für sehr viele Wörter benötigt. Entsprechendes experimentelles Material gibt es für das Deutsche zwar nicht, dafür aber mit dem Edinburgh Associative Thesaurus  (EAT) für das Englische. Bei dieser von Kiss (1973) durchgeführten Erhebung wurden wechselnden Gruppen von jeweils 100 Versuchspersonen insgesamt 8210 verschiedene Stimuluswörter vorgelegt. Dabei handelt es sich jedoch teilweise um Mehrwortbegriffe, für die das Simulationsprogramm nicht konzipiert ist. Bei allen auf dem EAT basierenden Untersuchungen in diesem Kapitel werden deshalb nur diejenigen 7868 Stimulus/Response-Paare verwendet, bei denen weder als Stimulus noch als Primärantwort Mehrwortbegriffe auftreten.

Die Abbildungen gif bis gif zeigen die Verteilungen der erwarteten Primärantworten für Stimuluswörter unterschiedlicher Korpushäufigkeiten . Für Korpushäufigkeiten bis zu 1000 zeigen die Schaubilder (vergl. die Abbildungen gif bis gif) eine ähnliche Charakteristik wie die Diagramme für jeweils 100 Stimuluswörter in den Abbildungen gif und gif. Die Schaubilder  gif bis gif lassen jedoch erkennen, daß die Hüllkurve mit zunehmender Häufigkeit der betrachteten Stimuluswörter schmaler und unsymmetrischer wird. Offenbar verstärkt sich die Tendenz, als assoziative Antwort auf ein vorgegebenes Stimuluswort dasjenige andere Wort zu nennen, das diesem in Texten häufig unmittelbar folgt (wie etwa tex2html_wrap_inline23621 ).

Abb. gif zeigt die Verteilung der Primärantworten für alle 7868 Stimuluswörter. Der qualitative Verlauf ist fast identisch mit Abb. gif, dem Diagramm für sehr häufige Funktionswörter. Wegen ihrer hohen Korpushäufigkeit dominieren diese offensichtlich den Verlauf der Hüllkurve. Darin zeigt es sich, daß es problematisch ist, vom Verhalten des Durchschnitts auf das Verhalten einzelner Stimuluswörter zu schließen.

Dennoch deuten die Ergebnisse darauf hin, daß es zweckmäßig ist, die Fenstergröße und -form in Abhängigkeit von der Korpushäufigkeit eines Stimuluswortes zu variieren. Gleichermaßen stellt sich die Frage, ob für unterschiedliche Häufigkeiten von Stimuluswörtern auch unterschiedliche Assoziationsformeln angewandt werden sollten. Dies wurde jedoch bislang noch nicht untersucht.

   figure1275
Abbildung: Häufigkeit H des Auftretens der Primärantwort im Abstand A vom Stimuluswort, gemittelt über die 686 Stimuluswörter mit Korpushäufigkeiten zwischen 1 und 10.

   figure1621
Abbildung: Verteilung der Primärantworten für die 2356 Stimuluswörter mit Korpushäufigkeiten zwischen 11 und 100.

   figure1968
Abbildung: Verteilung der Primärantworten für die 2843 Stimuluswörter mit Korpushäufigkeiten zwischen 101 und 1000.

   figure2315
Abbildung: Verteilung der Primärantworten für die 1647 Stimuluswörter mit Korpushäufigkeiten zwischen 1001 und 10 000.

   figure2662
Abbildung: Verteilung der Primärantworten für die 212 Stimuluswörter mit Korpushäufigkeiten zwischen 10 001 und 100 000.

   figure3009
Abbildung: Verteilung der Primärantworten für die 28 Stimuluswörter mit Korpushäufigkeiten zwischen 100 001 und 1 000 000.

   figure3358
Abbildung: Häufigkeit H des Auftretens der Primärantwort im Abstand A vom Stimuluswort, gemittelt über alle 7868 Stimuluswörter des EAT.


next up previous contents index
Next: Syntagmatische versus paradigmatische Assoziationen Up: Ansätze zur Verbesserung der Previous: Ansätze zur Verbesserung der

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997