next up previous contents index
Next: Lemmatisierung Up: Ansätze zur Verbesserung der Previous: Berücksichtigung der Wortart

 

Korpusrepräsentativität  und das Problem geringer Häufigkeiten

Um brauchbare Schätzungen   für das gemeinsame Auftreten von Wörtern zu erhalten, müssen an das verwendete Korpus zwei Anforderungen gestellt werden: Einerseits sollte es das sprachliche Milieu derjenigen Personen, deren Assoziationen vorhergesagt werden sollen, widerspiegeln. Andererseits sollte es so umfangreich sein, daß sich zufällige statistische Schwankungen im gemeinsamen Auftreten von Wörtern nicht entscheidend auswirken.

Trotz einiger theoretischer Arbeiten zur Repräsentativität von Korpora (Bergenholtz & Mugdan, 1989; Johansson & Stenström, 1991) wurden in der Praxis meist ad hoc Lösungen verwendet. In vielen Studien wurde beispielsweise nur auf eine Textsorte zurückgegriffen. So verwenden etwa Church & Hanks (1990) Texte von Associated Press, McDonald, Plate & Schvaneveldt (1990) das Longman Dictionary of Contemporary English und Basili, Pazienza & Velardi (1992) kommerzielle und juristische Texte der italienischen Handelskammer. Spence & Owens (1990) greifen zwar auf ein im Hinblick auf eine möglichst gute Repräsentativität zusammengestelltes Korpus, nämlich auf das Brown-Korpus zurück. Dieses ist jedoch nach heutigen Maßstäben erheblich zu klein.

Im Rahmen dieser Arbeit wurde versucht, sehr umfangreiche deutsch- und englischsprachige Textkorpora zusammenzustellen, die aus einer Vielzahl unterschiedlicher Textsorten bestehen. Trotz eines teilweise recht beträchtlichen Aufwandes bei der Beschaffung von Texten (vergl. Anhang gif) weisen aber auch diese Korpora einige Defizite auf. Der für die Zusammenstellung eines ausgewogenen Korpus benötigte Aufwand steigt mit zunehmender Größe. Deshalb wird in den folgenden Abschnitten auf einige Möglichkeiten eingegangen, die Schätzungen für Kookkurrenzhäufigkeiten bei gegebener Korpusgröße zu verbessern.





Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997