next up previous contents index
Next: Korrektur der Schätzwerte für Up: Korpusrepräsentativität und das Problem Previous: Korpusrepräsentativität und das Problem

 

Lemmatisierung

Unter der Annahme, daß zu den unterschiedlichen Flexionsformen eines Wortes gleich oder nur wenig unterschiedlich assoziiert wird, und daß die assoziativen Antworten in der Regel Grundformen sind, ist es möglich, das verwendete Textkorpus vor der Auszählung der Kookkurrenzen zu lemmatisieren. Durch dieses Zusammenfassen mehrerer Flexionsformen werden die mittleren Häufigkeiten der Wörter erhöht und es lassen sich nach dem Gesetz der großen Zahlen  stabilere und zuverlässigere Ergebnisse erzielen. Die Lemmatisierung des Textkorpus unter Vernachlässigung flexionsspezifischer Unterschiede hat sich u. a. beim Einsatz assoziativer Wortnetze in der Werbung bewährt (vergl. Kapitel gif). Hier ist es erwünscht, daß das Assoziationsprogramm ausschließlich Grundformen  generiert. Da auch Versuchspersonen fast immer mit Grundformen antworten, ergibt sich dadurch gleichzeitig auch eine bessere Übereinstimmung zwischen Simulation und Experiment.

Für die Lemmatisierung stand das von Wolfgang Lezius und Dirk Maxik (Lezius, 1992; Stammbauer, 1993) an der Universitt-Gesamthochschule Paderborn entwickelte Morphologieprogramm Morphy  zur Verfügung, das für wissenschaftliche Zwecke kostenfrei abgegeben wird. Alternativ hätte auch das von der Firma Softex in Saarbrücken angebotene Lemmatisierungsprogramm Primus  verwendet werden können, das zwar ein größeres Vokabular, aber einen kleineren Funktionsumfang bietet. Beide Programme arbeiten rein morphologisch. Da die Lemmatisierungsgeschwindigkeit von Morphy mit etwa zehn Wörtern pro Sekunde zum Lemmatisieren eines größeren Textkorpus nicht ausreichte, wurde nur das im Korpus vorkommende Vokabular lemmatisiert und das entstandene Vollformenlexikon bestehend aus Wortformen und zugehörigen Lemmata für ein eigenes, sehr schnelles Lemmatisierungsprogramm verwendet, das pro Sekunde über 1000 Wortformen lemmatisieren kann.

Da das Programm (wie auch Morphy und Primus) Ambiguitäten nicht auflöst, wird tatsächlich nur eine Teillematisierung durchgeführt. Bei mehrdeutigen Wortformen kann das gesuchte Lemma nach morphologischen Kriterien, also ohne Berücksichtigung des Kontextes, nicht eindeutig bestimmt werden. Das Lemmatisierungsprogramm wurde so ausgelegt, daß es in solchen Fällen keine Lemmatisierung vornimmt. Gleiches gilt für Wortformen, die nicht im Lexikon enthalten sind.



Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997