Home page FASK
Home page Reinhard Rapp
Next: Inhalt
Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz
Dissertation der Universität Konstanz, Informationswissenschaft
Referenten: Prof. Dr. R. Kuhlen und Prof. Dr. M. Wettler
Reinhard Rapp
Bibliographische Angaben zur Buchausgabe:
Rapp, Reinhard (1996): Die Berechnung von Assoziationen: ein
korpuslinguistischer Ansatz. Hildesheim; Zürich; New York: Olms.
(Reihe: Sprache und Computer, herausgegeben von P. Hellwig und
J. Krause, Bd. 16; ISBN: 3-487-10252-8; Preis: DM 54,-)
Klappentext:
Ausgehend von dem aus der Psychologie bekannten Assoziationsgesetz
wird gezeigt, daß die dem menschlichen Assoziationsvermögen
zugrundeliegenden kognitiven Prozesse mittels Computern nachvollzogen werden
können. Es wird ein Algorithmus beschrieben, der in der Lage ist,
durch die automatische Analyse umfangreicher Textsammlungen dieselben
Wortassoziationen zu generieren, die auch von Versuchspersonen im
Assoziationsexperiment genannt werden. Diese Assoziationsfähigkeit,
die regelbasierten Systemen zur Verarbeitung natürlicher Sprache fehlt,
erweist sich für ein breites Spektrum sprachwissenschaftlicher
Problemstellungen als hilfreich: Vorgestellt werden die Ergebnisse
von Computersimulationen zur syntaktischen und semantischen Analyse
von Texten, zur Konstruktion von Wortartensystemen, zur
Rechtschreibfehlerkorrektur, zur Informationssuche in Textdatenbanken,
zur assoziativen Analyse von Werbespots sowie zur maschinellen Übersetzung.
``You shall know a word by the company it keeps''
[Firth, 1957]
Vorwort
Die vorliegende Arbeit entstand als Dissertation
während
meiner Tätigkeit als wissenschaftlicher Angestellter in der Arbeitsgruppe
``Kognitive Psychologie'' an der Universität-Gesamthochschule Paderborn.
Sie wurde in enger Zusammenarbeit mit dem Leiter der Arbeitsgruppe,
Herrn Prof. Dr. Wettler, erstellt und hat in vielfältiger Hinsicht
von seinem reichen Erfahrungsschatz im Bereich der Sprachwissenschaft
profitiert. Es ist mir ein Anliegen, Herrn Prof. Wettler für
die Möglichkeit der Mitarbeit in seiner Arbeitsgruppe
und für die sehr angenehme Zusammenarbeit zu danken. Seine
Unterstützung hat diese Arbeit erst möglich gemacht.
Mein besonderer Dank gilt auch Herrn Prof. Dr. Kuhlen, der die
Entwicklung der Arbeit und meinen beruflichen Werdegang
über Jahre hinweg mit ebenso hilfreichen
wie kritischen Anregungen begleitete und den Blick für das
Wesentliche unter Beweis stellte.
Ich danke auch meinen früheren Kollegen, insbesondere Reginald Ferber
und Bernd Hagen, für die gute Zusammenarbeit und ihre fachliche
Unterstützung. Wenn es um die zum Teil extensive Nutzung der Rechenanlagen
der Hochschule ging, standen mir Herr Münch, Herr Fiedler und
Herr Gotmann vom Paderborner Hochschulrechenzentrum sowie
UNIX-Spezialist Stefan Mersmann mit Rat und Tat zur Seite.
Peter Sedlmeier von der Universität Salzburg führte das
Experiment zur Lückentextergänzung durch.
Bei der Akquisition der benötigten Korpora und ihrer
Bearbeitung wurde ich von vielen Seiten unterstützt. Namentlich
erwähnen möchte ich Gisela Zunker, die auch viele Literaturrecherchen
durchführte, Wolfgang Lezius, Torsten Knoefel,
Herrn Fräse von der Frankfurter Rundschau und Susan Armstrong von der Europäischen Korpusinitiative.
Die kritische Durchsicht des Manuskriptes wurde dankenswerterweise
von Gisela Zunker und Siegfried Rapp übernommen.
Nicht zuletzt gilt mein Dank der Heinz Nixdorf-Stiftung,
die das Projekt finanziell unterstützte.
Zusammenfassung
Es wird gezeigt, daß sich elementare sprachliche Prozesse wie
das freie Assoziieren, die Ergänzung von Lückentexten und
die Bildung syntaktisch orientierter Wortklassen
mit Hilfe sprachstatistischer Modelle
simulieren lassen, indem Regelmäßigkeiten in der Verteilung
der Wörter in umfangreichen Textkorpora analysiert werden.
Unter Anwendung des aus der psychologischen Lerntheorie
bekannten Assoziationsgesetzes werden die von Versuchspersonen
bei Vorgabe einzelner Stimuluswörter produzierten freien
Wortassoziationen auf das gemeinsame Vorkommen von Wörtern
in Texten zurückgeführt. Dieser Ansatz kann bei Verwendung
entsprechender Textkorpora gleichermaßen auf die deutsche und die
englische Sprache angewandt werden und erlaubt es, das
Assoziationsverhalten von Versuchspersonen der jeweiligen
Sprachgemeinschaft in guter Näherung vorauszusagen. Zudem werden
durch die Simulation sprachspezifische Unterschiede im
Assoziationsverhalten deutscher und amerikanischer
Versuchspersonen reproduziert.
Daß der gefundene Algorithmus zur Vorhersage von Wortassoziationen
eine praktische Relevanz besitzt, wird am Beispiel von drei
Anwendungen gezeigt: der Generierung geeigneter Suchwörter für
das Recherchieren in bibliographischen Datenbanken, der Vorhersage
der durch die in Werbespots verwendeten Begriffe ausgelösten Assoziationen
sowie der maschinellen Erstellung von Wörterbüchern aus zweisprachigen
Texten.
Bei der assoziativen Ergänzung von Textlücken müssen außer den schon
für die Simulation des freien Assoziierens benötigten Kookkurrenzhäufigkeiten
auch noch syntaktische Rahmenbedingungen berücksichtigt werden.
Versuche mit einem Verfahren, das eine Textlücke
in der Weise ergänzt, daß die Auftretenshäufigkeit der resultierenden
Wortfolge in einem zuvor analysierten Textkorpus maximiert wird,
führten jedoch zu nicht optimalen Ergebnissen.
Weil ein realisierbares Korpus immer nur einen winzigen Bruchteil
aller in einer Sprache möglichen Wortfolgen enthalten kann,
berücksichtigt das Verfahren nämlich in der Regel nur den Kontext
in einer sehr kleinen Umgebung um die Textlücke.
Die betrachtete Umgebung kann jedoch erweitert werden, wenn man sich
auf syntaktische Betrachtungen beschränkt. In diesem
Fall läßt sich die Vielzahl unterschiedlicher Wortformen auf
wenige Wortarten reduzieren, und das Verfahren zur Lückentextergänzung
kann mit besserem Erfolg auf Folgen von Wortarten angewandt werden.
Es werden Möglichkeiten aufgezeigt, wie die hierfür erforderliche
Einteilung der Wortformen in Wortarten manuell oder maschinell vorgenommen
werden kann, und wie durch die Analyse der Auftretenshäufigkeiten
von Folgen von Wortarten eine automatische kontextorientierte
Wortartenbestimmung für beliebige Texte möglich wird.
Abstract
It is shown that basic language processes like the production of free
word associations, the cloze task, and the forming of syntactical
word classes can be simulated using statistical models that analyse
the distribution of words in large text corpora.
The free word associations produced by subjects on presentation of
single stimulus words can be predicted on the basis of the common
occurrences of words in texts by applying the law of association
by contiguity which is well known from psychological learning theory.
By using appropriate corpora this approach was applied with good
success to both German and English. Furthermore, language specific
differences in the associative behaviour of German and American
subjects were reproduced.
Three applications are described that show the practical relevance of
the algorithm: One is the generation of suitable search terms for
information retrieval in bibliographic data bases, the second is
to predict the associations triggered by the words used in advertisements,
and the third is to automatically generate dictionaries from bilingual texts.
For the associative completion of deleted words in texts (cloze task)
not only - as for the prediction of free word associations -
co-occurrence frequencies have to be considered, but also syntactical
constraints must be taken into account. Experiments with an algorithm
that replaced deleted words in such a way that the corpus frequency
of the resulting word sequence was maximised led to unsatisfactory
results. Because a corpus of realistic size can only contain a small
fraction of all possible word sequences, in practice this algorithm
only takes a few words of context around the deleted word into account.
However, if only syntactical considerations are of interest, a wider
context can be taken into account by reducing the large number
of different word forms to a much smaller number of different
word classes. By applying a similar algorithm that matches
part of speech tags instead of words better results can be achieved.
It is shown how the word classes can be formed manually or automatically,
and how a part of speech tagger for German can be constructed.
- Inhalt
- Statistische Methoden in der maschinellen Sprachverarbeitung
- Die Berechnung von Wortassoziationen
- Englische Wortassoziationen
- Ansätze zur Verbesserung der Vorhersage von Wortassoziationen
- Vorhersage der Assoziationen auf mehrere Stimuluswörter
- Generierung von Suchbegriffen für die Datenbankabfrage
- Einsatz assoziativer Wortnetze in der Werbung
- Die maschinelle
Generierung von Wörterbüchern aus zweisprachigen Texten
- Die
Vorhersage der Aufeinanderfolge von Wörtern mittels bedingter Wahrscheinlichkeiten
- Kontextsensitive Rechtschreibfehlerkorrektur
- Kontextorientierte Wortartenbestimmung
- Technische Realisierung der Simulationsprogramme
- Zusammenfassung
- Anhang A: Die verwendeten Textkorpora und ihre Bezugsquellen
- Anhang B: Assoziationsnormen für Einzel- und Mehrwortstimuli
- Anhang C: Wortendungen als Prediktoren für Wortarten
- Anhang C: Ein syntaktisch orientiertes deutsches Wortartensystem
- Verben
- Vollverben
- Verb, Präsens, 1. Person Singular
- Verb, Präsens, 2. Person Singular
- Verb, Präsens, 3. Person Singular
- Verb, Präsens, 1. und 3. Person Plural
- Verb, Präsens, 2. Person Plural
- Verb, Imperfekt, 1. Person Singular
- Verb, Imperfekt, 2. Person Singular
- Verb, Imperfekt, 3. Person Singular
- Verb, Imperfekt, 1. und 3. Person Plural
- Verb, Imperfekt, 2. Person Plural
- Verb, Konjunktiv 1, 1. Person Singular
- Verb, Konjunktiv 1, 2. Person Singular
- Verb, Konjunktiv 1, 3. Person Singular
- Verb, Konjunktiv 1, 1. und 3. Person Plural
- Verb, Konjunktiv 1, 2. Person Plural
- Verb, Konjunktiv 2, 1. Person Singular
- Verb, Konjunktiv 2, 2. Person Singular
- Verb, Konjunktiv 2, 3. Person Singular
- Verb, Konjunktiv 2, 1. und 3. Person Plural
- Verb, Konjunktiv 2, 2. Person Plural
- Verb, Infinitiv
- Verb, Infinitiv mit eingeschlossenem zu
- Verb, Partizip 1
- Verb, Partizip 2 mit haben
- Verb, Partizip 2 mit sein
- Verb, Imperativ Singular
- Verb, Imperativ Plural
- Hilfsverben
- Hilfsverb mit Partizip, Präsens, 1. Person Singular
- Hilfsverb mit Partizip, Präsens, 2. Person Singular
- Hilfsverb mit Partizip, Präsens, 3. Person Singular
- Hilfsverb mit Partizip, Präsens, 1. und 3. Person Plural
- Hilfsverb mit Partizip, Präsens, 2. Person Plural
- Hilfsverb mit Partizip, Imperfekt, 1. Person Singular
- Hilfsverb mit Partizip, Imperfekt, 2. Person Singular
- Hilfsverb mit Partizip, Imperfekt, 3. Person Singular
- Hilfsverb mit Partizip, Imperfekt, 1. und 3. Person Plural
- Hilfsverb mit Partizip, Imperfekt, 2. Person Plural
- Hilfsverb mit Partizip, Konjunktiv 1, 1. Person Singular
- Hilfsverb mit Partizip, Konjunktiv 1, 2. Person Singular
- Hilfsverb mit Partizip, Konjunktiv 1, 3. Person Singular
- Hilfsverb mit Partizip, Konjunktiv 1, 1. und 3. Person Plural
- Hilfsverb mit Partizip, Konjunktiv 1, 2. Person Plural
- Hilfsverb mit Partizip, Konjunktiv 2, 1. Person Singular
- Hilfsverb mit Partizip, Konjunktiv 2, 2. Person Singular
- Hilfsverb mit Partizip, Konjunktiv 2, 3. Person Singular
- Hilfsverb mit Partizip, Konjunktiv 2, 1. und 3. Person Plural
- Hilfsverb mit Partizip, Konjunktiv 2, 2. Person Plural
- Hilfsverb mit Partizip, Infinitiv
- Hilfsverb mit Partizip, Partizip 2
- Hilfsverb mit Partizip, Imperativ Singular
- Hilfsverb mit Partizip, Imperativ Plural
- Hilfsverb mit zu, Präsens, 1. Person Singular
- Hilfsverb mit zu, Präsens, 2. Person Singular
- Hilfsverb mit zu, Präsens, 3. Person Singular
- Hilfsverb mit zu, Präsens, 1. und 3. Person Plural
- Hilfsverb mit zu, Präsens, 2. Person Plural
- Hilfsverb mit zu, Imperfekt, 1. Person Singular
- Hilfsverb mit zu, Imperfekt, 2. Person Singular
- Hilfsverb mit zu, Imperfekt, 3. Person Singular
- Hilfsverb mit zu, Imperfekt, 1. und 3. Person Plural
- Hilfsverb mit zu, Imperfekt, 2. Person Plural
- Hilfsverb mit zu, Konjunktiv 1, 1. Person Singular
- Hilfsverb mit zu, Konjunktiv 1, 2. Person Singular
- Hilfsverb mit zu, Konjunktiv 1, 3. Person Singular
- Hilfsverb mit zu, Konjunktiv 1, 1. und 3. Person Plural
- Hilfsverb mit zu, Konjunktiv 1, 2. Person Plural
- Hilfsverb mit zu, Konjunktiv 2, 1. Person Singular
- Hilfsverb mit zu, Konjunktiv 2, 2. Person Singular
- Hilfsverb mit zu, Konjunktiv 2, 3. Person Singular
- Hilfsverb mit zu, Konjunktiv 2, 1. und 3. Person Plural
- Hilfsverb mit zu, Konjunktiv 2, 2. Person Plural
- Hilfsverb mit zu, Infinitiv
- Hilfsverb mit zu, Imperativ Singular
- Hilfsverb mit zu, Imperativ Plural
- Hilfsverb ohne zu, Präsens, 1. Person Singular
- Hilfsverb ohne zu, Präsens, 2. Person Singular
- Hilfsverb ohne zu, Präsens, 3. Person Singular
- Hilfsverb ohne zu, Präsens, 1. und 3. Person Plural
- Hilfsverb ohne zu, Präsens, 2. Person Plural
- Hilfsverb ohne zu, Imperfekt, 1. Person Singular
- Hilfsverb ohne zu, Imperfekt, 2. Person Singular
- Hilfsverb ohne zu, Imperfekt, 3. Person Singular
- Hilfsverb ohne zu, Imperfekt, 1. und 3. Person Plural
- Hilfsverb ohne zu, Imperfekt, 2. Person Plural
- Hilfsverb ohne zu, Konjunktiv 1, 1. Person Singular
- Hilfsverb ohne zu, Konjunktiv 1, 2. Person Singular
- Hilfsverb ohne zu, Konjunktiv 1, 3. Person Singular
- Hilfsverb ohne zu, Konjunktiv 1, 1. und 3. Person Plural
- Hilfsverb ohne zu, Konjunktiv 1, 2. Person Plural
- Hilfsverb ohne zu, Konjunktiv 2, 1. Person Singular
- Hilfsverb ohne zu, Konjunktiv 2, 2. Person Singular
- Hilfsverb ohne zu, Konjunktiv 2, 3. Person Singular
- Hilfsverb ohne zu, Konjunktiv 2, 1. und 3. Person Plural
- Hilfsverb ohne zu, Konjunktiv 2, 2. Person Plural
- Hilfsverb ohne zu, Infinitiv
- Hilfsverb ohne zu, Partizip 2
- Hilfsverb ohne zu, Imperativ Singular
- Hilfsverb ohne zu, Imperativ Plural
- Substantive
- Substantiv, Nominativ Singular, maskulinum
- Substantiv, Genitiv Singular, maskulinum/neutrum
- Substantiv, Dativ Singular, maskulinum/neutrum
- Substantiv, Akkusativ Singular, maskulinum
- Substantiv, Nominativ/Genitiv/Dativ/Akkusativ Singular, femininum
- Substantiv, Nominativ/Akkusativ Singular, neutrum
- Substantiv, Nominativ/Genitiv/Akkusativ Plural,
mask./fem./neutr.
- Substantiv, Dativ Plural, maskulinum/femininum/neutrum
- Name (Verwendung ohne Artikel), Nom./Dativ/Akk.,
mask./fem.
- Name (Verwendung ohne Artikel), Genitiv, maskulinum/femininum
- Maßangabe, Nominativ Singular, maskulinum
- Maßangabe, Genitiv Singular, maskulinum/neutrum
- Maßangabe, Dativ Singular, maskulinum/neutrum
- Maßangabe, Akkusativ Singular, maskulinum
- Maßangabe, Nominativ/Genitiv/Dativ/Akkusativ Singular, femininum
- Maßangabe, Nominativ/Akkusativ Singular, neutrum
- Maßangabe, Nom./Gen./Akk. Plural,
mask./fem./neutr.
- Maßangabe, Dativ Plural, maskulinum/femininum/neutrum
- Adjektive
- Artikel
- Artikel, Nominativ, Singular, maskulinum, bestimmt
- Artikel, Nominativ, Singular, maskulinum, unbestimmt
- Artikel, Genitiv, Singular, maskulinum/neutrum, bestimmt/unbestimmt
- Artikel, Dativ, Singular, maskulinum/neutrum, bestimmt/unbestimmt
- Artikel, Akkusativ, Singular, maskulinum, bestimmt/unbestimmt
- Artikel, Nom./Akk., Singular, fem.,
bestimmt/unbestimmt
- Artikel, Genitiv, Singular, femininum, bestimmt/unbestimmt
- Artikel, Dativ, Singular, femininum, bestimmt/unbestimmt
- Artikel, Nominativ/Akkusativ, Singular, neutrum, bestimmt
- Artikel, Nominativ/Akkusativ, Singular, neutrum, unbestimmt
- Artikel, Nominativ/Akkusativ, Plural,
maskulinum/femininum/neutrum
- Artikel, Genitiv, Plural, maskulinum/femininum/neutrum
- Artikel, Dativ, Plural, maskulinum/femininum/neutrum
- Relativartikel, Dativ, Singular, maskulinum/neutrum
- Relativartikel, Dativ, Singular, femininum
- Relativartikel, Akkusativ, Singular, maskulinum
- Relativartikel, Akkusativ, Singular, femininum
- Relativartikel, Akkusativ, Singular, neutrum
- Relativartikel, Dativ, Plural, maskulinum/femininum/neutrum
- Relativartikel, Akkusativ, Plural, maskulinum/femininum/neutrum
- Relativartikel bei Mass-Nouns, Akkusativ, Plural,
mask./fem./neutr.
- Interrogativartikel, Dativ, Singular, maskulinum/neutrum
- Interrogativartikel, Dativ, Singular, femininum
- Interrogativartikel, Akkusativ, Singular, maskulinum
- Interrogativartikel, Akkusativ, Singular, femininum
- Interrogativartikel, Akkusativ, Singular, neutrum
- Interrogativartikel, Dativ, Plural, maskulinum/femininum/neutrum
- Interrogativartikel, Akkusativ, Plural, maskulinum/femininum/neutrum
- Pronomen
- Pronomen, Nominativ Singular, 1. Person
- Pronomen, Nominativ Singular, 2. Person
- Pronomen, Nominativ Singular, 3. Person
- Pronomen, Nominativ Plural, 1./3. Person
- Pronomen, Nominativ Plural, 2. Person
- Pronomen, Genitiv Singular, 1./2./3. Person, maskulinum/neutrum
- Pronomen, Genitiv Singular, 1./2./3. Person, femininum
- Pronomen, Genitiv Plural, 1./2./3. Person,
mask./fem./neutr.
- Pronomen, Dativ Singular/Plural, 1./2./3. Person,
mask./fem./neutr.
- Pronomen, Akkusativ Singular/Plural, 1./2./3. Person,
mask./fem./neutr.
- Pronomen, nicht nach ``ich'', ``du'', ``wir'', ``ihr'',
Dativ/Akkusativ Singular/Plural, 3. Person, mask./fem./neutr.
- Relativpronomen, Nominativ Singular, maskulinum
- Relativpronomen, Genitiv Singular, maskulinum/neutrum
- Relativpronomen, Dativ Singular, maskulinum/neutrum
- Relativpronomen, Akkusativ Singular, maskulinum
- Relativpronomen, Nominativ/Akkusativ Singular, femininum
- Relativpronomen, Genitiv Singular, femininum
- Relativpronomen, Dativ Singular, femininum
- Relativpronomen, Nominativ/Akkusativ Singular, neutrum
- Relativpronomen, Nominativ Plural, maskulinum/femininum/neutrum
- Relativpronomen, Genitiv Singular, maskulinum/neutrum
- Relativpronomen, Dativ Singular, maskulinum/neutrum
- Relativpronomen, Akkusativ Singular, maskulinum
- Interrogativpronomen, Nominativ Singular, maskulinum
- Interrogativpronomen, Genitiv Singular, maskulinum/neutrum
- Interrogativpronomen, Dativ Singular, maskulinum/neutrum
- Interrogativpronomen, Akkusativ Singular, maskulinum
- Interrogativpronomen, Nominativ Singular, femininum
- Interrogativpronomen, Genitiv Singular, femininum
- Interrogativpronomen, Dativ Singular, femininum
- Interrogativpronomen, Akkusativ Singular, femininum
- Interrogativpronomen, Nominativ Singular, neutrum
- Interrogativpronomen, Dativ Singular, neutrum
- Interrogativpronomen, Akkusativ Singular, neutrum
- Interrogativpronomen, Nominativ Plural,
mask./fem./neutr.
- Interrogativpronomen, Genitiv Plural, maskulinum/femininum/neutrum
- Interrogativpronomen, Dativ Plural, maskulinum/femininum/neutrum
- Partikeln
- Interjektionen
- Literatur
- Index
- Über dieses Dokument ...
Next: Inhalt
Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997