Wenngleich bei der Simulation von Wortassoziationen in
Kapitel
auch viele paradigmatische Assoziationen
richtig vorhergesagt werden konnten, weisen die Vorhersagen doch
eine deutliche Präferenz von syntagmatischen gegenüber paradigmatischen
Assoziationen auf. Um dieser Tendenz entgegenzuwirken, wurde der
Versuch unternommen, Assoziationen dadurch
zu berechnen, daß solche Wörter als assoziativ stark verknüpft
angesehen wurden, die häufig in einem identischen
Kontext von plus und minus zwei Wörtern vorkamen.
Dieser Ansatz führte jedoch zu sehr
schlechten Ergebnissen. So treten etwa in dem Rahmen
``das neue
war teuer'' zwar assoziativ miteinander verknüpfte
Wörter wie Auto und Fahrrad auf, gleichermaßen aber auch
unverknüpfte Wörter wie Haus oder Computerprogramm.
In Kapitel
wird dargestellt, daß sich mit diesem
Ansatz stattdessen eine Wortarteneinteilung erreichen läßt.
Eine genauere Analyse der in Tabelle
dargestellten Simulationsergebnisse zeigt, daß oftmals solche Wörter als assoziative Antwort berechnet werden,
die zusammen mit dem Stimuluswort in häufigen
Redewendungen auftreten. Dies ist bei etwa 39 der 100 Stimuluswörter der Fall.
Beispiele hierfür sind die Stimulus/Response-Paare langsam
stetig, pfeifen
Dächern, kurz
Mitternacht und Hand
linke. Auf die Assoziationen der Versuchspersonen scheinen solche Wendungen hingegen vergleichsweise wenig Einfluß zu nehmen.
In den genannten 39 Fällen nennen nämlich im Mittel nur 1,2
von 331 Versuchspersonen die vom System berechnete assoziative
Antwort, während es in den übrigen 61 Fällen durchschnittlich
36,8 Versuchspersonen sind. Wenn man bedenkt, daß auf eine
assoziative Antwort einer Versuchsperson im Mittel etwa
28,8 weitere Versuchspersonen entfallen, so wird klar, daß
dies ein wichtiges Problem ist.
Diese Beobachtung könnte dadurch erklärt werden, daß Redewendungen bei der Verarbeitung im Gedächtnis möglicherweise als eigenständige Objekte behandelt, also bei der Verarbeitung nicht in ihre Bestandteile zerlegt werden. Das Problem liegt also letztlich an der verwendeten Wortdefinition, die zwar zusammengesetzte Wörter, nicht aber feste Wendungen als Grundelemente ansieht.
Eine Verbesserung der Simulationsergebnisse wäre zu erwarten, wenn zwischen den Wörtern innerhalb einer Redewendung der Aufbau assoziativer Verbindungen unterdrückt würde. Dies könnte dadurch erreicht werden, daß beim Auszählen der Kookkurrenzhäufigkeiten das gemeinsame Auftreten von Wörtern innerhalb von Redewendungen nicht mitgezählt wird, was aber eine Lokalisierung der Redewendungen im Textkorpus voraussetzt. Dieses Problem wurde für das Englische beispielsweise von Choueka et al. (1983) und Smadja (1993) angegangen, für das Deutsche von Breidt (1993). Das von Smadja angegebene statistische Verfahren ist in der Lage, aus Texten einen Großteil der enthaltenen Redewendungen zu extrahieren. Eine Redewendung wird dabei genau dann erkannt, wenn die enthaltenen Wörter signifikant häufiger als zufällig in einem konstanten Abstand (d. h. bei gleichbleibender Anzahl dazwischenliegender Wörter) auftreten.
Wenn man davon ausgeht, daß Stimulus/Response-Paare im Falle
von Redewendungen in der Regel in konstantem Abstand, im Falle
von Wortassoziationen aber in wechselnden Abständen auftreten,
sollte sich der ungünstige Einfluß von Redewendungen auf die
Kookkurrenzhäufigkeiten unterdrücken lassen, ohne die
Redewendungen explizit lokalisieren zu müssen.
Abb.
zeigt auf der Basis des 46 Millionen
Wörter umfassenden deutschen Textkorpus die Auftretenshäufigkeiten
von stetig in bestimmten Abständen von langsam.
Stetig ist die vom Simulationsprogramm vorhergesagte
Primärantwort auf langsam (vergl. Tabelle
).
Offenbar tritt stetig fast ausschließlich zwei oder drei Wörter
nach langsam auf. Eine Betrachtung der Textstellen zeigt,
daß das gemeinsame Auftreten der beiden Wörter fast immer
auf Variationen der Redewendung ``langsam aber stetig''
zurückzuführen ist. Das entsprechende Histogramm für die
bei den Versuchspersonen ermittelte Primärantwort auf langsam,
nämlich schnell (vergl. Abb.
), ergibt
hingegen, daß schnell an fast beliebigen Positionen in der Nähe von
langsam auftreten kann.
Abbildung: Auftretenshäufigkeit H von schnell im Abstand A
relativ zu den Korpuspositionen von langsam.
Abbildung: Auftretenshäufigkeit H von stetig im Abstand A
relativ zu den Korpuspositionen von langsam.
Entsprechende Untersuchungen für andere Stimulus/Response-Paare
ergaben, daß in vielen weiteren Fällen, in denen fälschlicherweise
syntagmatische Assoziationen vorhergesagt wurden, die entsprechenden
Histogramme wenige starke Maxima aufwiesen, während sich für die
beobachteten Primärantworten Histogramme mit gleichmäßigerem
Verlauf ergaben. Folgende aus Smadja (1993, S. 155) adaptierte Formel
differenziert Histogramme nach Art von Abb.
danach, wie ausgeprägt ihre Maxima sind:
Hierbei ist
die Häufigkeit des Auftretens des einen Wortes
(hier: stetig) im Abstand j Wörter vom anderen
Wort (hier: langsam).
ist
der Mittelwert dieser Häufigkeiten. Die Formel berücksichtigt
einen Bereich von
Wörtern vom Stimuluswort.
Ein großer Wert für U deutet hierbei auf ein Histogramm mit
ausgeprägten Maxima hin.
Da Assoziationen, für die sich ein gleichmäßiger Verlauf des
Histogrammes, also ein kleines U ergibt, gestärkt werden sollen,
ist es zweckmäßig, deren gemessene Kookkurrenzhäufigkeiten
mit dem Kehrwert eines in geeigneter Weise normierten U
Wertes zu multiplizieren.