next up previous contents index
Next: Die Berechnung von Wortassoziationen Up: No Title Previous: Inhalt

Statistische Methoden in der maschinellen Sprachverarbeitung

Die Mechanismen, die der menschlichen Sprachverarbeitung  zugrunde liegen, werden von verschiedenen Wissenschaftsdisziplinen mit unterschiedlichen Methoden analysiert. In der Psychologie  ist es gängige Praxis, aus der Theorie Hypothesen zum sprachlichen Verhalten abzuleiten und diese mittels geeigneter Experimente anhand von Versuchspersonen zu überprüfen. Ein Problem besteht hierbei darin, eine verwirrende Vielzahl experimenteller Befunde durch eine einheitliche Modellbildung zu erklären.

Die ausgefeilte Methodik, die für eine solche experimentelle Vorgehensweise notwendig ist, ist demgegenüber bei der Verarbeitung natürlicher Sprache im Rahmen der Künstliche Intelligenz-Forschung  (KI) weitgehend unbekannt. Stattdessen wird versucht, durch Introspektion  die im Hinblick auf bestimmte Anwendungen gerade interessierenden Sprachverarbeitungsmechanismen herauszufinden und mit Hilfe formaler Logik in Computerprogrammen umzusetzen. Da die in einem Programm verwendeten Regeln den betrachteten Gegenstand möglichst umfassend beschreiben sollen, in der Regel aber manuell erstellt werden müssen, war bislang die Realisierung solcher Programme nur für eng begrenzte und klar definierte Ausschnitte der realen Welt möglich.

In der Linguistik  wiederum ist die für die KI typische Anwendungsorientierung weit weniger ausgeprägt. Es wurden jedoch - beispielsweise zur Grammatik  - anspruchsvolle Theorien entwickelt, deren Regelwerke es etwa erlauben, einen Satz auf syntaktische Richtigkeit zu überprüfen. Kennzeichnend für die Linguistik ist, daß versucht wird, Theorien anhand konstruierter Beispiele zu überprüfen und gegebenenfalls zu widerlegen.

Da solche Beispiele oft schwer zu finden sind und es in Grenzfällen schwierig sein kann, zu entscheiden, was als richtig und was als falsch gelten soll, hat es sich als nützlich erwiesen, solche Überprüfungen anhand von Textkorpora  vorzunehmen. Daraus hat sich eine eigenständige Disziplin entwickelt, die Korpuslinguistik . Ihr Ziel ist es, die Gesetzmäßigkeiten der Sprache durch die Analyse von Korpora zu erkennen und diese Erkenntnisse zum Aufbau künstlicher sprachverarbeitender Systeme zu nutzen.

Eine erste Blüte hatte diese Art empirischer Forschung  bereits in den fünfziger Jahren, als beispielsweise die maschinelle Übersetzung  rein informationstheoretisch als eine Art Dekodierungsproblem betrachtet wurde (Weaver, 1949). Das Interesse an statistischer Modellierung von Sprache schwand jedoch, nachdem Chomsky  gezeigt hatte, daß Grammatikalität nicht einfach durch das Aufeinanderfolgen von Wörtern erklärt werden kann:

``We find that no finite-state Markov  process that produces symbols with transition from state to state can serve as an English grammar. Furthermore, the particular subclass of such processes that produce n-order statistical approximations to English do not come closer, with increasing n, to matching the output of an English grammar.'' [Chomsky, 1956, S. 113]
Als dann Ende der sechziger Jahre von Minsky  und Papert (1969) bewiesen wurde, daß mit den damals von den empirisch arbeitenden Forschern verwendeten neuronalen Netzen  - den Perzeptrons  - bestimmte Typen von logischen Verknüpfungen (``ausschließliches Oder'') prinzipiell nicht realisiert werden konnten, schien die Zeit des Empirizismus vorbei zu sein, wenngleich in einigen Bereichen, beispielsweise dem Information Retrieval , nach wie vor statistische Verfahren verwendet wurden (van Rijsbergen, 1979).

Aus heutiger Sicht ist es jedoch eher unverständlich, daß die Einwände von Chomsky sowie Minsky und Papert eine derartige Wirkung hatten. Die Aussage von Chomsky bezieht sich nämlich lediglich auf Statistiken erster Ordnunggif (z. B. Übergangsmatrizen oder bedingte Wahrscheinlichkeiten) und die Aussage von Minsky und Papert nur auf zweilagige neuronale Netze. Bei Verwendung von Statistiken höherer Ordnung bzw. mindestens dreilagigen neuronalen Netzen ist es jedoch ohne Weiteres möglich, die genannten Einschränkungen zu vermeiden. Vermutlich hat jedoch die damals zur Verfügung stehende geringe Rechenleistung der Computer die Realisierung solcher komplizierterer Systeme verhindert und somit die Weiterverfolgung eines aussichtsreichen Ansatzes über Jahrzehnte blockiert.

Dennoch haben aber Ende der achtziger Jahre sowohl der Konnektionismus  als auch wenig später die statistische Sprachverarbeitung eine Renaissance erlebt. Diese beruht in erster Linie darauf, daß es mit dem Fortschreiten der Computertechnik möglich wurde, mit Hilfe empirischer Methoden konkrete Probleme zu lösen. Der Unterschied zwischen statistischen und konnektionistischen Modellierungen ist dabei weniger grundsätzlicher Natur, sondern mehr durch die im jeweiligen Umfeld verwendete Terminologie bedingt. Bei den meisten in der Literatur angegebenen statistischen Verfahren handelt es sich um einfache Spezialfälle der konnektionistischen Modellierung: Während in konnektionistischen Systemen meist aus vorgegebenen Beispielen gelernt wird (``supervised learning '') und eher komplizierte Lernregeln verwendet werden (etwa der Backpropagation-Algorithmus , s. Rumelhart & McClelland, 1986), geht es bei den statistischen Verfahren um die Erkennung statistischer Regelmäßigkeiten in Texten (``unsupervised learning ''). Häufig kommen einfache Lerngesetze (vergleichbar mit der Hebb'schen Regel , s. Hebb, 1949) zur Anwendung, die etwa feststellen, ob bestimmte Konstruktionen im Text häufiger auftreten, als es rein statistisch zu erwarten wäre.

Es gibt eine Reihe von Gründen, weshalb in der statistischen Sprachverarbeitung nur selten auf die komplexeren konnektionistischen Methoden zurückgegriffen wird, obwohl diese eigentlich bessere Ergebnisse erwarten ließen. Zum einen hat es sich gezeigt, daß statistische Verfahren meist nur dann erfolgreich sind, wenn umfangreiche Korpora analysiert werden. Eine ausreichende Lerngeschwindigkeit ist aber derzeit in der Regel nur dann zu erzielen, wenn einfache Lernalgorithmen verwendet werden. Ein weiterer Vorteil der statistischen Verfahren liegt darin, daß der Lernvorgang einfacher zu durchschauen ist und sich damit die Algorithmen gezielter verbessern lassen. Bei konnektionistischen Verfahren ist es hingegen meist schwierig, ein Modell zu optimieren, da der Zusammenhang zwischen Ursache und Wirkung oft nicht leicht zu erkennen ist.

Die Vorteile statistischer und konnektionistischer gegenüber regelbasierten Verfahren liegen darin, daß der Lernvorgang in aller Regel vollständig maschinell abläuft, daß sie dadurch leicht auf unterschiedliche Bereiche (andere Textsorte, andere Sprache) anpaßbar sind, und daß Gelerntes immer auch generalisiert  wird: Selbst wenn das System mit einer bestimmten Eingabe nie konfrontiert wurde, wird es dennoch auf der Basis der zuvor analysierten Texte die wahrscheinlichste Vorhersage machen. Darin liegt jedoch auch der größte Nachteil: Da die im Text vorgefundenen Wahrscheinlichkeiten zufälligen Schwankungen unterworfen sein können, bedingt dies die Möglichkeit von Fehlern. Demgegenüber streben die regelbasierten Verfahren der KI und der Linguistik eine zu 100% richtige Verarbeitung an. Da sich für die bei der Verarbeitung natürlicher Sprache erforderlichen Regeln aber bislang keine Vollständigkeit erzielen ließ, ist das Ergebnis letztlich ebenfalls unvollkommen.gif

Der Streit der Disziplinen ist letztlich nur eine Frage der Zweckmäßigkeit: Ist es besser, mit intellektuellen Verfahren eine kleine Anzahl komplexer Regeln zusammenzutragen oder mit maschinell ablaufenden statistischen Verfahren eine große Anzahl statistischer Parameter (vergleichbar mit sehr einfachen Regeln) zu extrahieren? Wenn man die zu erwartende Leistungsentwicklung von natürlicher und künstlicher Intelligenz vergleicht, ist abzusehen, daß die Zukunft den maschinellen Verfahren gehören wird, wenngleich beliebige Übergänge denkbar sind (s. auch Paprotté, 1994).

Bereits jetzt werden mit statistischen Verfahren in einigen Bereichen bessere Ergebnisse erzielt als mit regelbasierten. So schreiben etwa Waibel  und Lee (1990, S. 4) in ihrem Sammelband grundlegender Aufsätze zur Spracherkennung : ``The pure knowledge-based approach emulates human speech knowledge using expert systems. Rule-based systems have had only limited success... Most successful large-scale systems today use a stochastic approach.'' Sampson (1987, S. 21) gibt die Erfolgsquote eines statistischen Systems zur kontextsensitiven Wortartenbestimmung wie folgt an: ``Currently, CLAWS  is running at a rate of between 96% and 97% of words of authentic text correctly tagged ... We are unaware of any non-probabilistic system that comes close to matching this performance.'' In einigen anderen Bereichen, etwa bei der in dieser Arbeit behandelten Berechnung von Assoziationen, hat es bislang noch keine ernsthaften Versuche gegeben, diese mit einem regelbasierten Ansatz zu behandeln. Wie es scheint kommen die Vorteile statistischer Verfahren vor allem bei der Modellierung elementarer sprachlicher Prozesse zum Tragen. Hingegen ist zur Simulation sprachlicher Prozesse, die logisches Denken erfordern (wie etwa bei Frage-Antwort-Systemen), derzeit der Einsatz regelbasierter Systeme erfolgversprechender.

Im folgenden einige Literaturangaben zu Bereichen, in denen sprachstatistische Verfahren mit Erfolg eingesetzt werden:

In der vorliegenden Arbeit wird von einigen einfachen Annahmen über die Natur elementarer sprachlicher Prozesse  ausgegangen. Die Grundannahme besteht darin, daß es zum Spracherwerb  genügt, längere Zeit einem Fluß überwiegend korrekter sprachlicher Äußerungen  ausgesetzt zu sein. Eine Rückkopplung, ob ein geäußerter Satz korrekt war oder nicht, ist auf der Ebene elementarer sprachlicher Prozesse nicht notwendig (Hanson & Kegl, 1987, sprechen von ``incremental positive evidence''). Stattdessen wird angenommen, daß im Gehirn Detektoren  für bestimmte sprachstatistische Indikatoren  existieren. Bei der Rezeption von Sprache registrieren diese Regelmäßigkeiten in der Abfolge von Wörtern.

Die Ergebnisse dieser Arbeit legen nahe, daß Detektoren beispielsweise für die folgenden sprachstatistischen Indikatoren erster und zweiter Ordnung existieren sollten:

  1. Wie groß ist die Auftretenshäufigkeit von Wort A?
  2. Wie häufig folgt Wort A direkt auf Wort B?
  3. Wie häufig treten Wort A und Wort B gemeinsam auf (etwa im selben Satz oder in einer Umgebung von plus oder minus 10 Wörtern)?
  4. Ist die Menge der Wörter, die als Vorgänger/Nachfolger von Wort A auftreten, identisch mit der Menge der Wörter, die als Vorgänger/Nachfolger von Wort B auftreten?
  5. Ist die Häufigkeitsverteilung der Wörter, die als Vorgänger/Nachfolger von Wort A auftreten, ähnlich wie die Häufigkeitsverteilung der Wörter, die als Vorgänger/Nachfolger von Wort B auftreten?
  6. Wie häufig folgt ein Wort, das dieselben Vorgänger und Nachfolger hat wie Wort A, auf ein Wort, das dieselben Vorgänger und Nachfolger hat wie Wort B?
Indikator 1 eignet sich etwa zur Trennung des aktiven vom passiven Wortschatz , Indikator 2 ist für die Lückentextergänzung  nützlich, die Indikatoren 1 und 3 zusammen erlauben die Vorhersage von Wortassoziationen , Indikatoren in der Art von 4 und 5 sind hilfreich bei der maschinellen Generierung von Wortklassen  und Indikator 6 gehört zu denjenigen Indikatoren, die zur kontextsensitiven Wortartenbestimmung  und zur Syntaxanalyse  benötigt werden.

Ob die genannten Detektoren tatsächlich von Wörtern als sprachlicher Grundeinheit ausgehen und ob die aufgeführten sprachstatistischen Indikatoren die wesentlichsten sind, sei dahingestellt. Es wird jedoch davon ausgegangen, daß die Auswahl der Indikatoren durch die Verschaltung  der Neuronen im Gehirn festgelegt ist. Parameter wie Sprechgeschwindigkeit , mittlere Satzlänge und Verschachtelungstiefe von Relativsätzen  werden durch diese Verschaltung sowie die Signallaufzeiten zwischen den Neuronen bestimmt.

Es wird angenommen, daß bei der Produktion von Sprache  die bei der Rezeption ermittelten sprachstatistischen Parameter reproduziert werden. Da der Sprachgebrauch von Geburt an seh- oder hörbehinderter  Menschen nicht erheblich von dem nicht Behinderter abweicht, ist es offenbar für den Spracherwerb unwesentlich, ob die Sprache über den akustischen oder den optischen Kanal aufgenommen wird. Auch eine Interaktion zwischen verschiedenen Kanälen, wie oft angenommen (etwa: man sieht einen Baum und hört das Wort ``Baum''), ist für den Spracherwerb  nicht erforderlich.gif Wichtig zur Ermittlung der sprachstatistischen Parameter ist hingegen die Rezeption einer ausreichenden Menge gesprochener oder geschriebener Sprache. Die zum Erwerb einer Sprache notwendige Sprachmenge  läßt sich leicht abschätzen. Nimmt man etwa an, daß zum Spracherwerb zehn Jahre benötigt werden und täglich mit etwa 5 Stunden Sprachrezeption  bei einer Geschwindigkeit von 2 Wörtern pro Sekunde zu rechnen ist, so kommt man auf etwa 130 Millionen laufende Wortformen.

Ein statistisches System, das einer solchen Textmenge mit einer ähnlichen Zusammensetzung wie beim realen Spracherwerb ausgesetzt wird und dieselben statistischen Indikatoren berücksichtigt wie ein natürliches System, müßte demnach in der Lage sein, elementares Sprachverhalten zu simulieren. Dies wird in der vorliegenden Arbeit versucht, indem für einige Typen elementarer Sprachverarbeitungsprozesse Simulationsalgorithmen  angegeben werden.

Zunächst wird im gif. Kapitel einer der grundlegendsten Sprachverarbeitungsprozesse untersucht, nämlich das freie Assoziieren . Er bestimmt, welche Begriffe mit bestimmten Stimuli  assoziiert werden. Die Sprachproduktion  wird als ein Vorgang angesehen, bei dem ausgehend von rezipierten Stimuli ein Generierungsprozeß  angestoßen wird, während dessen nur auf solche Begriffe zurückgegriffen werden kann, die mit den Stimuli assoziativ verknüpft  sind. Anders ausgedrückt: Man kann einen Sachverhalt nur mit den Begriffen formulieren, die einem einfallen.gif

Trotz dieser grundlegenden Funktion des Assoziierens sind in bisherigen sprachverarbeitenden Systemen normalerweise keine Assoziationskomponenten  vorhanden. Kapitel gif zeigt, daß das Erlernen von Wortassoziationen mit dem aus der Psychologie bekannten Assoziationsgesetz  erklärt werden kann, daß die bei Versuchspersonen gefundenen freien Assoziationen also dadurch berechnet werden können, daß das gemeinsame Auftreten von Wörtern in Texten untersucht wird. In Kapitel gif wird gezeigt, daß der zunächst für das Deutsche entwickelte Assoziationsalgorithmus in gleicher Weise auf die englische Sprache angewandt werden kann. Offensichtlich sind die durch den Algorithmus analysierten sprachstatistischen Indikatoren, nämlich das gemeinsame Auftreten und die Häufigkeiten von Wörtern in Texten, so allgemeiner Natur, daß sie gleichermaßen für unterschiedliche Sprachen gelten.

Im gif. Kapitel geht es um die Verfeinerung des zuvor verwendeten - zunächst auf Einfachheit der Modellierung ausgelegten - Assoziationsalgorithmus. In Kapitel gif wird der Algorithmus dahingehend erweitert, daß nicht zu einzelnen, sondern zu mehreren Stimuluswörtern assoziiert werden soll. Hierbei werden die Assoziationen zu mehreren Stimuluswörtern  durch Überlagerung  der Assoziationen zu einzelnen Stimuli berechnet.

Die Kapitel gif und gif stellen zwei Anwendungen des Assoziationsalgorithmus vor: Zum einen die maschinelle Generierung geeigneter Suchwörter  für das Information Retrieval  in bibliographischen Datenbanken , zum anderen die Analyse der assoziativen Wirkungen, die von den in Werbespots  verwendeten Begriffen ausgelöst werden.

Kapitel gif erweitert die Untersuchung des gemeinsamen Vorkommens von Wörtern auf einen Sonderfall, nämlich die Analyse zweisprachig vorliegender, paralleler Texte . Es wird gezeigt, wie aus dem gemeinsamen Vorkommen der Wörter innerhalb des Originals und des übersetzten Textes auf die Übersetzungen der in den Texten vorkommenden Wörter geschlossen werden kann. Dadurch ist es möglich, rein maschinell die Rohfassung eines Wörterbuches  zu erstellen.

In den anschließenden Kapiteln wird ein weiterer elementarer Sprachverarbeitungsprozeß behandelt, nämlich die Ergänzung fehlender Wörter in Lückentexten. Bei der Lückentextergänzung  handelt es sich nicht mehr um freies Assoziieren, da in eine Textlücke nur solche Wörter eingesetzt werden können, die die durch die Umgebungswörter vorgegebenen syntaktischen Erfordernisse erfüllen. Der hier verfolgte Ansatz zur Lösung dieses Problemes besteht darin, daß das Programm zur Vorhersage eines in eine Textlücke einzusetzenden Wortes zunächst alle syntaktisch möglichen Wörter bestimmt, und diese anschließend dadurch in eine Rangfolge bringt, daß die assoziativen Verbindungsstärken zu den als Mehrwortstimuli  betrachteten Inhaltswörtern in der Umgebung berechnet werden.

In Kapitel gif wird zunächst eine Methode vorgestellt, die auf der Basis der Auftretenshäufigkeiten von Wortfolgen in einem Korpus versucht, Vorhersagen für die Lückentextergänzung zu machen. Die Ergebnisse werden mit einer an Versuchspersonen durchgeführten Studie verglichen. Wie sich zeigt, ist die vorgeschlagene Methode in der Lage, Nahbereichsabhängigkeiten zwischen Wörtern zu berücksichtigen, versagt jedoch bei Abhängigkeiten über größere Distanzen, wie Sie etwa bei eingeschobenen Relativsätzen auftreten.

Kapitel gif zeigt am Beispiel einer Anwendung, nämlich der kontextsensitiven Rechtschreibfehlerkorrektur , daß diese Beschränkung auf den Nahbereich auf das sogenannte Sparse-Data-Problem  zurückzuführen ist, also darauf, daß ein Textkorpus  in der Größenordnung von 100 Millionen Wörtern nur einen winzigen Bruchteil aller gebräuchlichen Wortfolgen enthalten kann. Werden hingegen anstatt Folgen von Wörtern Folgen von Wortarten betrachtet, was für syntaktische Betrachtungen genügt, wird das Sparse-Data-Problem entscheidend gemildert, da sich einige hunderttausend Wortformen auf einige hundert Wortarten reduzieren lassen. In Kapitel gif wird ein Verfahren angegeben, wie die zu einer Wortart gehörenden Wortformen maschinell ermittelt werden können, und wie die Analyse der Häufigkeiten von Folgen von Wortarten in einem annotierten Korpus dazu benutzt werden kann, eine kontextsensitive Wortartenbestimmung durchzuführen.

In Kapitel gif werden einige zur Realisierung der vorgestellten korpuslinguistischen Methoden verwendeten Techniken und Algorithmen  vorgestellt, und das abschließende gif. Kapitel faßt die wichtigsten Ergebnisse der Arbeit zusammen.


next up previous contents index
Next: Die Berechnung von Wortassoziationen Up: No Title Previous: Inhalt

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997