Um die Assoziationsstärken zwischen Wörtern auf der Grundlage des Assoziationsgesetzes abschätzen zu können, wird sprachliches Material benötigt, das auf das gemeinsame Auftreten von Wörtern hin untersucht werden kann. Da es um die Vorhersage von Verhalten geht, ist es wichtig, daß das verwendete Material soweit wie möglich dem Sprachgebrauch entspricht, wie er einem Menschen täglich begegnet.
Mit dem LIMAS-Korpus des Institutes für Kommunikationsforschung und Phonetik wurde ein Versuch gemacht, einen repräsentativen Querschnitt durch die deutsche Schriftsprache zu geben. Dieses Korpus umfaßt Textausschnitte aus unterschiedlichen Sachgebieten im Umfang von etwa 1,1 Millionen laufenden Wortformen.
Überschlägige Hochrechnungen ergeben jedoch, daß ein Kind bis zur
Beherrschung seiner Muttersprache in der Größenordnung von 100
Millionen Wortformen rezipiert.
Diese Erkenntnis sowie die in früheren Untersuchungen
gemachten Erfahrungen (Rapp & Wettler, 1991a; Rapp & Wettler, 1991b;
Rapp & Wettler, 1992a;
Wettler & Rapp, 1990; Wettler & Rapp, 1993c)
ließen es als notwendig erscheinen, mehrere
zur Verfügung stehende Textkorpora zu einem etwa 21 Millionen
Wortformen umfassenden Gesamtkorpus zusammenzufassen. Dieses
setzt sich wie folgt zusammen (weitere Angaben zu den Korpora
s. Anhang
):
Nach den zuvor gemachten Annahmen sollten die Voraussagen der assoziativen Antworten umso besser sein, je besser die für die Schätzung der Assoziationsstärken verwendeten Texte dem sprachlichen Milieu der Versuchspersonen entsprechen. Die in den Korpora enthaltenen Texte sind größtenteils zwanzig bis dreißig Jahre nach der Würzburger Untersuchung entstanden und damit nicht repräsentativ für das sprachliche Milieu der Versuchspersonen von Russell & Meseck. Andererseits zeigen die starken Gemeinsamkeiten zwischen den assoziativen Antworten verschiedener Versuchspersonen, daß interindividuelle Unterschiede in der Lerngeschichte sich nur wenig auf die Assoziationen zu häufigen und allgemein gebräuchlichen Stimuluswörtern auswirken. Dies spricht dafür, daß auch die Unterschiede zwischen den verwendeten Korpora und dem sprachlichen Milieu der Versuchspersonen die Richtigkeit der Voraussagen nicht entscheidend beeinträchtigen sollten.
Für die Berechnung der Assoziationsstärken wurde ein eingeschränktes Vokabular von insgesamt 65 356 Wörtern verwendet. Diese Beschränkung wurde vorgenommen, um den Rechenaufwand und den Speicherplatzbedarf bei der Ermittlung der Kookkurrenzen von Wörtern nicht unnötig hoch werden zu lassen. Das Vokabular besteht aus allen 63 344 Wörtern, die in den Korpora des Instituts für deutsche Sprache mindestens zehn mal auftreten, sowie zusätzlich aus allen Wörtern, die in dem Versuch von Russell & Meseck als Stimulus oder Antwort vorkommen. Satz- und Sonderzeichen werden wie Wörter behandelt.