Unter der Annahme, daß zu den unterschiedlichen Flexionsformen
eines Wortes gleich oder nur wenig unterschiedlich assoziiert
wird, und daß die assoziativen Antworten in der Regel
Grundformen sind, ist es möglich, das verwendete Textkorpus vor der
Auszählung der Kookkurrenzen zu lemmatisieren. Durch dieses
Zusammenfassen mehrerer Flexionsformen werden die mittleren
Häufigkeiten der Wörter erhöht und es lassen sich nach dem
Gesetz der großen Zahlen stabilere und zuverlässigere Ergebnisse
erzielen. Die Lemmatisierung des Textkorpus unter Vernachlässigung
flexionsspezifischer Unterschiede hat sich u. a. beim
Einsatz assoziativer Wortnetze in der Werbung bewährt
(vergl. Kapitel
). Hier ist es erwünscht, daß das
Assoziationsprogramm ausschließlich
Grundformen generiert. Da auch Versuchspersonen fast immer mit
Grundformen antworten, ergibt sich dadurch gleichzeitig auch
eine bessere Übereinstimmung zwischen Simulation und Experiment.
Für die Lemmatisierung stand das von Wolfgang Lezius und Dirk Maxik (Lezius, 1992; Stammbauer, 1993) an der Universitt-Gesamthochschule Paderborn entwickelte Morphologieprogramm Morphy zur Verfügung, das für wissenschaftliche Zwecke kostenfrei abgegeben wird. Alternativ hätte auch das von der Firma Softex in Saarbrücken angebotene Lemmatisierungsprogramm Primus verwendet werden können, das zwar ein größeres Vokabular, aber einen kleineren Funktionsumfang bietet. Beide Programme arbeiten rein morphologisch. Da die Lemmatisierungsgeschwindigkeit von Morphy mit etwa zehn Wörtern pro Sekunde zum Lemmatisieren eines größeren Textkorpus nicht ausreichte, wurde nur das im Korpus vorkommende Vokabular lemmatisiert und das entstandene Vollformenlexikon bestehend aus Wortformen und zugehörigen Lemmata für ein eigenes, sehr schnelles Lemmatisierungsprogramm verwendet, das pro Sekunde über 1000 Wortformen lemmatisieren kann.
Da das Programm (wie auch Morphy und Primus) Ambiguitäten nicht auflöst, wird tatsächlich nur eine Teillematisierung durchgeführt. Bei mehrdeutigen Wortformen kann das gesuchte Lemma nach morphologischen Kriterien, also ohne Berücksichtigung des Kontextes, nicht eindeutig bestimmt werden. Das Lemmatisierungsprogramm wurde so ausgelegt, daß es in solchen Fällen keine Lemmatisierung vornimmt. Gleiches gilt für Wortformen, die nicht im Lexikon enthalten sind.