next up previous contents index
Next: Mittlerer Abstand zwischen Wörtern Up: Ansätze zur Verbesserung der Previous: Optimierung von Fenstergröße und

 

Syntagmatische  versus paradigmatische Assoziationen

Wenngleich bei der Simulation von Wortassoziationen in Kapitel gif auch viele paradigmatische Assoziationen richtig vorhergesagt werden konnten, weisen die Vorhersagen doch eine deutliche Präferenz von syntagmatischen gegenüber paradigmatischen Assoziationen auf. Um dieser Tendenz entgegenzuwirken, wurde der Versuch unternommen, Assoziationen dadurch zu berechnen, daß solche Wörter als assoziativ stark verknüpft angesehen wurden, die häufig in einem identischen Kontext von plus und minus zwei Wörtern vorkamen. Dieser Ansatz führte jedoch zu sehr schlechten Ergebnissen. So treten etwa in dem Rahmen ``das neue tex2html_wrap_inline23685 war teuer'' zwar assoziativ miteinander verknüpfte Wörter wie Auto und Fahrrad auf, gleichermaßen aber auch unverknüpfte Wörter wie Haus oder Computerprogramm. In Kapitel gif wird dargestellt, daß sich mit diesem Ansatz stattdessen eine Wortarteneinteilung erreichen läßt.

Eine genauere Analyse der in Tabelle gif dargestellten Simulationsergebnisse zeigt, daß oftmals solche Wörter als assoziative Antwort berechnet werden, die zusammen mit dem Stimuluswort in häufigen Redewendungen  auftreten. Dies ist bei etwa 39 der 100 Stimuluswörter der Fall. Beispiele hierfür sind die Stimulus/Response-Paare langsam tex2html_wrap_inline23500 stetig, pfeifen tex2html_wrap_inline23500 Dächern, kurz tex2html_wrap_inline23500 Mitternacht und Hand tex2html_wrap_inline23500 linke. Auf die Assoziationen der Versuchspersonen scheinen solche Wendungen hingegen vergleichsweise wenig Einfluß zu nehmen. In den genannten 39 Fällen nennen nämlich im Mittel nur 1,2 von 331 Versuchspersonen die vom System berechnete assoziative Antwort, während es in den übrigen 61 Fällen durchschnittlich 36,8 Versuchspersonen sind. Wenn man bedenkt, daß auf eine assoziative Antwort einer Versuchsperson im Mittel etwa 28,8 weitere Versuchspersonen entfallen, so wird klar, daß dies ein wichtiges Problem ist.

Diese Beobachtung könnte dadurch erklärt werden, daß Redewendungen bei der Verarbeitung im Gedächtnis möglicherweise als eigenständige Objekte behandelt, also bei der Verarbeitung nicht in ihre Bestandteile zerlegt werden. Das Problem liegt also letztlich an der verwendeten Wortdefinition, die zwar zusammengesetzte Wörter, nicht aber feste Wendungen als Grundelemente ansieht.

Eine Verbesserung der Simulationsergebnisse wäre zu erwarten, wenn zwischen den Wörtern innerhalb einer Redewendung der Aufbau assoziativer Verbindungen unterdrückt würde. Dies könnte dadurch erreicht werden, daß beim Auszählen der Kookkurrenzhäufigkeiten das gemeinsame Auftreten von Wörtern innerhalb von Redewendungen nicht mitgezählt wird, was aber eine Lokalisierung der Redewendungen im Textkorpus voraussetzt. Dieses Problem wurde für das Englische beispielsweise von Choueka et al. (1983) und Smadja (1993) angegangen, für das Deutsche von Breidt (1993). Das von Smadja angegebene statistische Verfahren ist in der Lage, aus Texten einen Großteil der enthaltenen Redewendungen zu extrahieren. Eine Redewendung wird dabei genau dann erkannt, wenn die enthaltenen Wörter signifikant häufiger als zufällig in einem konstanten Abstand (d. h. bei gleichbleibender Anzahl dazwischenliegender Wörter) auftreten.

Wenn man davon ausgeht, daß Stimulus/Response-Paare im Falle von Redewendungen in der Regel in konstantem Abstand, im Falle von Wortassoziationen aber in wechselnden Abständen auftreten, sollte sich der ungünstige Einfluß von Redewendungen auf die Kookkurrenzhäufigkeiten unterdrücken lassen, ohne die Redewendungen explizit lokalisieren zu müssen. Abb. gif zeigt auf der Basis des 46 Millionen Wörter umfassenden deutschen Textkorpus die Auftretenshäufigkeiten von stetig in bestimmten Abständen von langsam. Stetig ist die vom Simulationsprogramm vorhergesagte Primärantwort auf langsam (vergl. Tabelle gif). Offenbar tritt stetig fast ausschließlich zwei oder drei Wörter nach langsam auf. Eine Betrachtung der Textstellen zeigt, daß das gemeinsame Auftreten der beiden Wörter fast immer auf Variationen der Redewendung ``langsam aber stetig'' zurückzuführen ist. Das entsprechende Histogramm für die bei den Versuchspersonen ermittelte Primärantwort auf langsam, nämlich schnell (vergl. Abb. gif), ergibt hingegen, daß schnell an fast beliebigen Positionen in der Nähe von langsam auftreten kann.

     figure3735
Abbildung: Auftretenshäufigkeit H von schnell im Abstand A relativ zu den Korpuspositionen von langsam.
Abbildung: Auftretenshäufigkeit H von stetig im Abstand A relativ zu den Korpuspositionen von langsam.

Entsprechende Untersuchungen für andere Stimulus/Response-Paare ergaben, daß in vielen weiteren Fällen, in denen fälschlicherweise syntagmatische Assoziationen vorhergesagt wurden, die entsprechenden Histogramme wenige starke Maxima aufwiesen, während sich für die beobachteten Primärantworten Histogramme mit gleichmäßigerem Verlauf ergaben. Folgende aus Smadja (1993, S. 155) adaptierte Formel differenziert Histogramme nach Art von Abb. gif danach, wie ausgeprägt ihre Maxima sind:

equation4062

Hierbei ist tex2html_wrap_inline23719 die Häufigkeit des Auftretens des einen Wortes (hier: stetig) im Abstand j Wörter vom anderen Wort (hier: langsam). tex2html_wrap_inline23723 ist der Mittelwert dieser Häufigkeiten. Die Formel berücksichtigt einen Bereich von tex2html_wrap_inline23725 Wörtern vom Stimuluswort. Ein großer Wert für U deutet hierbei auf ein Histogramm mit ausgeprägten Maxima hin. Da Assoziationen, für die sich ein gleichmäßiger Verlauf des Histogrammes, also ein kleines U ergibt, gestärkt werden sollen, ist es zweckmäßig, deren gemessene Kookkurrenzhäufigkeiten mit dem Kehrwert eines in geeigneter Weise normierten U Wertes zu multiplizieren.


next up previous contents index
Next: Mittlerer Abstand zwischen Wörtern Up: Ansätze zur Verbesserung der Previous: Optimierung von Fenstergröße und

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997