Um brauchbare Schätzungen für das gemeinsame Auftreten von Wörtern zu erhalten, müssen an das verwendete Korpus zwei Anforderungen gestellt werden: Einerseits sollte es das sprachliche Milieu derjenigen Personen, deren Assoziationen vorhergesagt werden sollen, widerspiegeln. Andererseits sollte es so umfangreich sein, daß sich zufällige statistische Schwankungen im gemeinsamen Auftreten von Wörtern nicht entscheidend auswirken.
Trotz einiger theoretischer Arbeiten zur Repräsentativität von Korpora (Bergenholtz & Mugdan, 1989; Johansson & Stenström, 1991) wurden in der Praxis meist ad hoc Lösungen verwendet. In vielen Studien wurde beispielsweise nur auf eine Textsorte zurückgegriffen. So verwenden etwa Church & Hanks (1990) Texte von Associated Press, McDonald, Plate & Schvaneveldt (1990) das Longman Dictionary of Contemporary English und Basili, Pazienza & Velardi (1992) kommerzielle und juristische Texte der italienischen Handelskammer. Spence & Owens (1990) greifen zwar auf ein im Hinblick auf eine möglichst gute Repräsentativität zusammengestelltes Korpus, nämlich auf das Brown-Korpus zurück. Dieses ist jedoch nach heutigen Maßstäben erheblich zu klein.
Im Rahmen dieser Arbeit wurde versucht, sehr umfangreiche
deutsch- und englischsprachige Textkorpora zusammenzustellen,
die aus einer Vielzahl unterschiedlicher Textsorten
bestehen. Trotz eines teilweise recht beträchtlichen
Aufwandes bei der Beschaffung von Texten (vergl. Anhang
)
weisen aber auch diese Korpora einige Defizite auf.
Der für die Zusammenstellung eines ausgewogenen Korpus benötigte
Aufwand steigt mit zunehmender Größe. Deshalb wird in den
folgenden Abschnitten auf einige Möglichkeiten eingegangen,
die Schätzungen für Kookkurrenzhäufigkeiten bei gegebener
Korpusgröße zu verbessern.