Home page FASK
Home page Reinhard Rapp

next up previous contents index
Next: Inhalt

Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz

Dissertation der Universität Konstanz, Informationswissenschaft

Referenten: Prof. Dr. R. Kuhlen und Prof. Dr. M. Wettler

Reinhard Rapp

Bibliographische Angaben zur Buchausgabe: Rapp, Reinhard (1996): Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz. Hildesheim; Zürich; New York: Olms. (Reihe: Sprache und Computer, herausgegeben von P. Hellwig und J. Krause, Bd. 16; ISBN: 3-487-10252-8; Preis: DM 54,-)

Klappentext: Ausgehend von dem aus der Psychologie bekannten Assoziationsgesetz wird gezeigt, daß die dem menschlichen Assoziationsvermögen zugrundeliegenden kognitiven Prozesse mittels Computern nachvollzogen werden können. Es wird ein Algorithmus beschrieben, der in der Lage ist, durch die automatische Analyse umfangreicher Textsammlungen dieselben Wortassoziationen zu generieren, die auch von Versuchspersonen im Assoziationsexperiment genannt werden. Diese Assoziationsfähigkeit, die regelbasierten Systemen zur Verarbeitung natürlicher Sprache fehlt, erweist sich für ein breites Spektrum sprachwissenschaftlicher Problemstellungen als hilfreich: Vorgestellt werden die Ergebnisse von Computersimulationen zur syntaktischen und semantischen Analyse von Texten, zur Konstruktion von Wortartensystemen, zur Rechtschreibfehlerkorrektur, zur Informationssuche in Textdatenbanken, zur assoziativen Analyse von Werbespots sowie zur maschinellen Übersetzung.

``You shall know a word by the company it keeps'' [Firth, 1957]

Vorwort

Die vorliegende Arbeit entstand als Dissertationgif während meiner Tätigkeit als wissenschaftlicher Angestellter in der Arbeitsgruppe ``Kognitive Psychologie'' an der Universität-Gesamthochschule Paderborn. Sie wurde in enger Zusammenarbeit mit dem Leiter der Arbeitsgruppe, Herrn Prof. Dr. Wettler, erstellt und hat in vielfältiger Hinsicht von seinem reichen Erfahrungsschatz im Bereich der Sprachwissenschaft profitiert. Es ist mir ein Anliegen, Herrn Prof. Wettler für die Möglichkeit der Mitarbeit in seiner Arbeitsgruppe und für die sehr angenehme Zusammenarbeit zu danken. Seine Unterstützung hat diese Arbeit erst möglich gemacht.

Mein besonderer Dank gilt auch Herrn Prof. Dr. Kuhlen, der die Entwicklung der Arbeit und meinen beruflichen Werdegang über Jahre hinweg mit ebenso hilfreichen wie kritischen Anregungen begleitete und den Blick für das Wesentliche unter Beweis stellte.

Ich danke auch meinen früheren Kollegen, insbesondere Reginald Ferber und Bernd Hagen, für die gute Zusammenarbeit und ihre fachliche Unterstützung. Wenn es um die zum Teil extensive Nutzung der Rechenanlagen der Hochschule ging, standen mir Herr Münch, Herr Fiedler und Herr Gotmann vom Paderborner Hochschulrechenzentrum sowie UNIX-Spezialist Stefan Mersmann mit Rat und Tat zur Seite. Peter Sedlmeier von der Universität Salzburg führte das Experiment zur Lückentextergänzung durch. Bei der Akquisition der benötigten Korpora und ihrer Bearbeitung wurde ich von vielen Seiten unterstützt. Namentlich erwähnen möchte ich Gisela Zunker, die auch viele Literaturrecherchen durchführte, Wolfgang Lezius, Torsten Knoefel, Herrn Fräse von der Frankfurter Rundschau und Susan Armstrong von der Europäischen Korpusinitiative.

Die kritische Durchsicht des Manuskriptes wurde dankenswerterweise von Gisela Zunker und Siegfried Rapp übernommen. Nicht zuletzt gilt mein Dank der Heinz Nixdorf-Stiftung, die das Projekt finanziell unterstützte.

Zusammenfassung

Es wird gezeigt, daß sich elementare sprachliche Prozesse wie das freie Assoziieren, die Ergänzung von Lückentexten und die Bildung syntaktisch orientierter Wortklassen mit Hilfe sprachstatistischer Modelle simulieren lassen, indem Regelmäßigkeiten in der Verteilung der Wörter in umfangreichen Textkorpora analysiert werden.

Unter Anwendung des aus der psychologischen Lerntheorie bekannten Assoziationsgesetzes werden die von Versuchspersonen bei Vorgabe einzelner Stimuluswörter produzierten freien Wortassoziationen auf das gemeinsame Vorkommen von Wörtern in Texten zurückgeführt. Dieser Ansatz kann bei Verwendung entsprechender Textkorpora gleichermaßen auf die deutsche und die englische Sprache angewandt werden und erlaubt es, das Assoziationsverhalten von Versuchspersonen der jeweiligen Sprachgemeinschaft in guter Näherung vorauszusagen. Zudem werden durch die Simulation sprachspezifische Unterschiede im Assoziationsverhalten deutscher und amerikanischer Versuchspersonen reproduziert.

Daß der gefundene Algorithmus zur Vorhersage von Wortassoziationen eine praktische Relevanz besitzt, wird am Beispiel von drei Anwendungen gezeigt: der Generierung geeigneter Suchwörter für das Recherchieren in bibliographischen Datenbanken, der Vorhersage der durch die in Werbespots verwendeten Begriffe ausgelösten Assoziationen sowie der maschinellen Erstellung von Wörterbüchern aus zweisprachigen Texten.

Bei der assoziativen Ergänzung von Textlücken müssen außer den schon für die Simulation des freien Assoziierens benötigten Kookkurrenzhäufigkeiten auch noch syntaktische Rahmenbedingungen berücksichtigt werden. Versuche mit einem Verfahren, das eine Textlücke in der Weise ergänzt, daß die Auftretenshäufigkeit der resultierenden Wortfolge in einem zuvor analysierten Textkorpus maximiert wird, führten jedoch zu nicht optimalen Ergebnissen. Weil ein realisierbares Korpus immer nur einen winzigen Bruchteil aller in einer Sprache möglichen Wortfolgen enthalten kann, berücksichtigt das Verfahren nämlich in der Regel nur den Kontext in einer sehr kleinen Umgebung um die Textlücke. Die betrachtete Umgebung kann jedoch erweitert werden, wenn man sich auf syntaktische Betrachtungen beschränkt. In diesem Fall läßt sich die Vielzahl unterschiedlicher Wortformen auf wenige Wortarten reduzieren, und das Verfahren zur Lückentextergänzung kann mit besserem Erfolg auf Folgen von Wortarten angewandt werden. Es werden Möglichkeiten aufgezeigt, wie die hierfür erforderliche Einteilung der Wortformen in Wortarten manuell oder maschinell vorgenommen werden kann, und wie durch die Analyse der Auftretenshäufigkeiten von Folgen von Wortarten eine automatische kontextorientierte Wortartenbestimmung für beliebige Texte möglich wird.

Abstract

It is shown that basic language processes like the production of free word associations, the cloze task, and the forming of syntactical word classes can be simulated using statistical models that analyse the distribution of words in large text corpora.

The free word associations produced by subjects on presentation of single stimulus words can be predicted on the basis of the common occurrences of words in texts by applying the law of association by contiguity which is well known from psychological learning theory. By using appropriate corpora this approach was applied with good success to both German and English. Furthermore, language specific differences in the associative behaviour of German and American subjects were reproduced.

Three applications are described that show the practical relevance of the algorithm: One is the generation of suitable search terms for information retrieval in bibliographic data bases, the second is to predict the associations triggered by the words used in advertisements, and the third is to automatically generate dictionaries from bilingual texts.

For the associative completion of deleted words in texts (cloze task) not only - as for the prediction of free word associations - co-occurrence frequencies have to be considered, but also syntactical constraints must be taken into account. Experiments with an algorithm that replaced deleted words in such a way that the corpus frequency of the resulting word sequence was maximised led to unsatisfactory results. Because a corpus of realistic size can only contain a small fraction of all possible word sequences, in practice this algorithm only takes a few words of context around the deleted word into account. However, if only syntactical considerations are of interest, a wider context can be taken into account by reducing the large number of different word forms to a much smaller number of different word classes. By applying a similar algorithm that matches part of speech tags instead of words better results can be achieved. It is shown how the word classes can be formed manually or automatically, and how a part of speech tagger for German can be constructed.




next up previous contents index
Next: Inhalt

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997