Um Kookkurrenzhäufigkeiten auszählen zu können, muß definiert werden, was unter dem gemeinsamen Auftreten von Wörtern zu verstehen ist. Hierfür gibt es unterschiedliche Möglichkeiten: So betrachten etwa Wettler & Rapp (1989) Kookkurrenzen in den Abstracts einer bibliographischen Datenbank, McDonald et al. (1990) hingegen Kookkurrenzen in den Wortdefinitionen des Longman Dictionary of Contemporary English. Rapp & Wettler (1991b) vergleichen die Kookkurrenzen in Sätzen mit solchen in Fenstern konstanter Länge, wie sie auch von Church & Hanks (1990) verwendet werden. Spence & Owens (1990) verwenden zwar ebenfalls Fenster konstanter Länge, definieren aber die Länge nicht über die Anzahl der Wörter, sondern über die Anzahl der Buchstaben. Uneinigkeit herrscht auch darüber, ob eine symmetrische oder eine asymmetrische Umgebung um das Stimuluswort betrachtet werden sollte.
Die folgenden Ausführungen beziehen sich ausschließlich auf
die Optimierung der bereits in den Kapiteln
und
verwendeten
symmetrischen Fenster mit einer konstanten Anzahl von Wörtern.
Dort wurde das zum Auszählen der Kookkurrenzen verwendete Textfenster dadurch optimiert, daß die auf
der Grundlage einer bestimmten Fenstergröße generierten
Assoziationen mit denen von Versuchspersonen verglichen und die
Übereinstimmung gemessen wurde. Die Fenstergröße, die zu einer
maximalen Übereinstimmung führte, wurde als optimal angesehen.
Diese Vorgehensweise hat zwei wesentliche Nachteile. Einerseits ist - da jeweils die Assoziationen zu vielen Stimuli berechnet werden müssen - der benötigte Rechenaufwand so hoch, daß aus Zeitgründen in der Praxis nur wenige Variationen der Fensterparameter (Größe und Form) evaluiert werden können. Andererseits hängt die Qualität der generierten Assoziationen nicht nur vom gewählten Textfenster ab, sondern auch von der verwendeten Assoziationsformel . Wie sich zeigen läßt, sind die Art des Fensters und die gewählte Formel keine voneinander unabhängigen Variablen. So können sich für zwei unterschiedliche Assoziationsformeln zwei verschiedene Fenstertypen als optimal erweisen. (Beispielsweise kann es bei einer Assoziationsformel, die niedrige Kookkurrenzhäufigkeiten unterdrückt, für die Ergebnisse günstig sein, ein breiteres Fenster zu wählen.)
Abbildung: Häufigkeit H des Auftretens der Primärantwort
im Abstand A vom Stimuluswort, gemittelt über die 100
deutschen Stimulus/Response-Paare nach Russell & Meseck (1959). In großem Abstand
vom Stimuluswort liegt die Häufigkeit des Auftretens
einer Primärantwort im Mittel bei 0,50.
Abbildung: Häufigkeit H des Auftretens der Primärantwort
im Abstand A vom Stimuluswort, gemittelt über die 100
englischen Stimulus/Response-Paare nach Russell & Jenkins (1954).
In großem Abstand
vom Stimuluswort liegt die Häufigkeit des Auftretens
einer Primärantwort im Mittel bei 0,49.
Eine alternative Möglichkeit, das nach Größe und Form optimale Fenster zu finden, besteht darin, für eine repräsentative Auswahl von Stimuluswörtern zu bestimmen, wo im Korpus sich die von den Versuchspersonen genannten assoziativen Antworten zum jeweiligen Stimuluswort befinden. Nach dem Assoziationsgesetz wäre zu erwarten, daß sich die auf ein bestimmtes Stimuluswort gegebenen assoziativen Antworten um die Auftretenspositionen dieses Stimuluswortes häufen. Die Art der Häufung bestimmt schließlich Form und Größe des Fensters. Bei dieser Art der Betrachtung entfallen oben genannte Einflüsse.
Abbildung
zeigt über alle 100 Stimuluswörter
des Assoziationsversuches nach Russell & Meseck (1959) gemittelt,
in welcher relativen Umgebung vom
Stimuluswort sich die von den Versuchspersonen jeweils
meistgenannte assoziative Antwort befindet. In das Diagramm
wurden deshalb nur die jeweils meistgenannten assoziativen
Antworten einbezogen, weil diese sehr prägnant
sind und deshalb als besonders typische Assoziationen
angesehen werden können. Würden auch Assoziationen, die nur von
wenigen Versuchspersonen genannt wurden, berücksichtigt, würde das
Diagramm an Schärfe verlieren, da diese Assoziationen möglicherweise
eher zufällig zustande gekommen sind.
In Abbildung
findet sich die entsprechende
Verteilung für die englischen Assoziationen nach Russell &
Jenkins (1954).
Bei der Interpretation des Diagrammes ist die annähernde Symmetrie der Kurve von besonderem Interesse. Sie spricht dafür, daß die Reihenfolge von Stimulus und Response kaum von Belang ist.
Aus der Form der Kurve läßt sich schließen, daß eine assoziative
Verbindung zwischen zwei Wörtern umso weniger hergestellt wird,
je größer ihr räumlicher Abstand im Korpus ist. Bei gesprochener
oder gelesener Sprache entspricht dieser größere räumliche einem
größeren zeitlichen Abstand, der Rückschlüsse auf die Speicherdauer
im Kurzzeitgedächtnis zuläßt.
Nach dem bisher Gesagten ist es allerdings erstaunlich, daß
gemäß Abb.
und
zwischen zwei unmittelbar aufeinanderfolgenden
Wörtern offenbar nur eine minimale assoziative Verbindung
hergestellt wird. Zunächst könnte man daran denken, eine
Inhibition unmittelbar aufeinanderfolgender Wörter anzunehmen.
Eine solche wäre sehr geeignet, den bei der Simulation
häufig auftretenden Fall, daß in Texten unmittelbar
aufeinander folgende Wörter miteinander assoziiert werden
(etwa Hand
linke), zu unterdrücken (vergl. Tab.
).
Bei Betrachtung der Texte fällt jedoch auf, daß den
100 verwendeten Stimuluswörtern, bei denen es sich durchweg
um Inhaltswörter handelt, syntaktisch bedingt zumeist Funktionswörter
vorausgehen und nachfolgen. Deshalb ist auf diesen Positionen kein Platz
mehr für Response-Wörter, die ja ebenfalls fast immer Inhaltswörter
sind.
Bei den bisherigen Betrachtungen wurde aus Gründen der Einfachheit davon ausgegangen, daß für Stimuluswörter jedweder Korpushäufigkeit ein- und derselbe Fenstertyp optimal ist. Dies bedeutet jedoch, daß sich bei sehr häufigen Stimuluswörtern die Fenster oftmals gegenseitig überlappen, während bei seltenen Stimuluswörtern durch die geringe Fenstergröße nur wenige assoziative Verbindungen aufgebaut werden. Zur Untersuchung, ob sich die Häufigkeit eines Stimuluswortes auf die Fenstergröße auswirken sollte, wurden Stimuluswörter mit bekannten Primärantworten in mehrere Klassen unterteilt, deren Korpushäufigkeit sich jeweils um eine Zehnerpotenz unterschied.
Um zu erreichen, daß auf jede Klasse eine ausreichende Anzahl von Stimulus/Response-Paaren entfallen, werden Assoziationsnormen für sehr viele Wörter benötigt. Entsprechendes experimentelles Material gibt es für das Deutsche zwar nicht, dafür aber mit dem Edinburgh Associative Thesaurus (EAT) für das Englische. Bei dieser von Kiss (1973) durchgeführten Erhebung wurden wechselnden Gruppen von jeweils 100 Versuchspersonen insgesamt 8210 verschiedene Stimuluswörter vorgelegt. Dabei handelt es sich jedoch teilweise um Mehrwortbegriffe, für die das Simulationsprogramm nicht konzipiert ist. Bei allen auf dem EAT basierenden Untersuchungen in diesem Kapitel werden deshalb nur diejenigen 7868 Stimulus/Response-Paare verwendet, bei denen weder als Stimulus noch als Primärantwort Mehrwortbegriffe auftreten.
Die Abbildungen
bis
zeigen die
Verteilungen der erwarteten Primärantworten für Stimuluswörter
unterschiedlicher Korpushäufigkeiten . Für Korpushäufigkeiten
bis zu 1000 zeigen die Schaubilder
(vergl. die Abbildungen
bis
)
eine ähnliche Charakteristik wie die Diagramme für
jeweils 100 Stimuluswörter in den Abbildungen
und
. Die Schaubilder
bis
lassen jedoch erkennen, daß die Hüllkurve
mit zunehmender Häufigkeit der betrachteten Stimuluswörter
schmaler und unsymmetrischer wird. Offenbar verstärkt sich
die Tendenz, als assoziative Antwort auf ein vorgegebenes Stimuluswort
dasjenige andere Wort zu nennen, das diesem in Texten häufig
unmittelbar folgt (wie etwa
).
Abb.
zeigt die Verteilung der Primärantworten
für alle 7868 Stimuluswörter. Der qualitative Verlauf ist
fast identisch mit Abb.
, dem Diagramm
für sehr häufige Funktionswörter. Wegen ihrer hohen Korpushäufigkeit
dominieren diese offensichtlich den Verlauf der Hüllkurve.
Darin zeigt es sich, daß es problematisch ist, vom
Verhalten des Durchschnitts auf das Verhalten einzelner Stimuluswörter
zu schließen.
Dennoch deuten die Ergebnisse darauf hin, daß es zweckmäßig ist, die Fenstergröße und -form in Abhängigkeit von der Korpushäufigkeit eines Stimuluswortes zu variieren. Gleichermaßen stellt sich die Frage, ob für unterschiedliche Häufigkeiten von Stimuluswörtern auch unterschiedliche Assoziationsformeln angewandt werden sollten. Dies wurde jedoch bislang noch nicht untersucht.
Abbildung: Häufigkeit H des Auftretens der Primärantwort im Abstand A
vom Stimuluswort, gemittelt über die 686 Stimuluswörter mit
Korpushäufigkeiten zwischen 1 und 10.
Abbildung: Verteilung der Primärantworten für die 2356 Stimuluswörter mit
Korpushäufigkeiten zwischen 11 und 100.
Abbildung: Verteilung der Primärantworten für die 2843 Stimuluswörter mit
Korpushäufigkeiten zwischen 101 und 1000.
Abbildung: Verteilung der Primärantworten für die 1647 Stimuluswörter
mit Korpushäufigkeiten zwischen 1001 und 10 000.
Abbildung: Verteilung der Primärantworten für die 212 Stimuluswörter
mit Korpushäufigkeiten zwischen 10 001 und 100 000.
Abbildung: Verteilung der Primärantworten für die 28 Stimuluswörter
mit Korpushäufigkeiten zwischen 100 001
und 1 000 000.
Abbildung: Häufigkeit H des Auftretens der Primärantwort
im Abstand A vom Stimuluswort, gemittelt über alle 7868
Stimuluswörter des EAT.