Die Mechanismen, die der menschlichen Sprachverarbeitung zugrunde liegen, werden von verschiedenen Wissenschaftsdisziplinen mit unterschiedlichen Methoden analysiert. In der Psychologie ist es gängige Praxis, aus der Theorie Hypothesen zum sprachlichen Verhalten abzuleiten und diese mittels geeigneter Experimente anhand von Versuchspersonen zu überprüfen. Ein Problem besteht hierbei darin, eine verwirrende Vielzahl experimenteller Befunde durch eine einheitliche Modellbildung zu erklären.
Die ausgefeilte Methodik, die für eine solche experimentelle Vorgehensweise notwendig ist, ist demgegenüber bei der Verarbeitung natürlicher Sprache im Rahmen der Künstliche Intelligenz-Forschung (KI) weitgehend unbekannt. Stattdessen wird versucht, durch Introspektion die im Hinblick auf bestimmte Anwendungen gerade interessierenden Sprachverarbeitungsmechanismen herauszufinden und mit Hilfe formaler Logik in Computerprogrammen umzusetzen. Da die in einem Programm verwendeten Regeln den betrachteten Gegenstand möglichst umfassend beschreiben sollen, in der Regel aber manuell erstellt werden müssen, war bislang die Realisierung solcher Programme nur für eng begrenzte und klar definierte Ausschnitte der realen Welt möglich.
In der Linguistik wiederum ist die für die KI typische Anwendungsorientierung weit weniger ausgeprägt. Es wurden jedoch - beispielsweise zur Grammatik - anspruchsvolle Theorien entwickelt, deren Regelwerke es etwa erlauben, einen Satz auf syntaktische Richtigkeit zu überprüfen. Kennzeichnend für die Linguistik ist, daß versucht wird, Theorien anhand konstruierter Beispiele zu überprüfen und gegebenenfalls zu widerlegen.
Da solche Beispiele oft schwer zu finden sind und es in Grenzfällen schwierig sein kann, zu entscheiden, was als richtig und was als falsch gelten soll, hat es sich als nützlich erwiesen, solche Überprüfungen anhand von Textkorpora vorzunehmen. Daraus hat sich eine eigenständige Disziplin entwickelt, die Korpuslinguistik . Ihr Ziel ist es, die Gesetzmäßigkeiten der Sprache durch die Analyse von Korpora zu erkennen und diese Erkenntnisse zum Aufbau künstlicher sprachverarbeitender Systeme zu nutzen.
Eine erste Blüte hatte diese Art empirischer Forschung bereits in den fünfziger Jahren, als beispielsweise die maschinelle Übersetzung rein informationstheoretisch als eine Art Dekodierungsproblem betrachtet wurde (Weaver, 1949). Das Interesse an statistischer Modellierung von Sprache schwand jedoch, nachdem Chomsky gezeigt hatte, daß Grammatikalität nicht einfach durch das Aufeinanderfolgen von Wörtern erklärt werden kann:
``We find that no finite-state Markov process that produces symbols with transition from state to state can serve as an English grammar. Furthermore, the particular subclass of such processes that produce n-order statistical approximations to English do not come closer, with increasing n, to matching the output of an English grammar.'' [Chomsky, 1956, S. 113]Als dann Ende der sechziger Jahre von Minsky und Papert (1969) bewiesen wurde, daß mit den damals von den empirisch arbeitenden Forschern verwendeten neuronalen Netzen - den Perzeptrons - bestimmte Typen von logischen Verknüpfungen (``ausschließliches Oder'') prinzipiell nicht realisiert werden konnten, schien die Zeit des Empirizismus vorbei zu sein, wenngleich in einigen Bereichen, beispielsweise dem Information Retrieval , nach wie vor statistische Verfahren verwendet wurden (van Rijsbergen, 1979).
Aus heutiger Sicht ist es jedoch eher unverständlich, daß die Einwände von
Chomsky sowie Minsky und Papert eine derartige Wirkung hatten. Die Aussage
von Chomsky bezieht sich nämlich lediglich auf Statistiken erster
Ordnung
(z. B. Übergangsmatrizen oder bedingte Wahrscheinlichkeiten)
und die Aussage von Minsky und Papert nur auf zweilagige neuronale
Netze. Bei Verwendung von Statistiken höherer Ordnung bzw. mindestens
dreilagigen neuronalen Netzen ist es jedoch ohne Weiteres möglich, die
genannten Einschränkungen zu vermeiden. Vermutlich hat jedoch die
damals zur Verfügung stehende geringe Rechenleistung der Computer die
Realisierung solcher komplizierterer Systeme verhindert und somit
die Weiterverfolgung eines aussichtsreichen Ansatzes über Jahrzehnte
blockiert.
Dennoch haben aber Ende der achtziger Jahre sowohl der Konnektionismus als auch wenig später die statistische Sprachverarbeitung eine Renaissance erlebt. Diese beruht in erster Linie darauf, daß es mit dem Fortschreiten der Computertechnik möglich wurde, mit Hilfe empirischer Methoden konkrete Probleme zu lösen. Der Unterschied zwischen statistischen und konnektionistischen Modellierungen ist dabei weniger grundsätzlicher Natur, sondern mehr durch die im jeweiligen Umfeld verwendete Terminologie bedingt. Bei den meisten in der Literatur angegebenen statistischen Verfahren handelt es sich um einfache Spezialfälle der konnektionistischen Modellierung: Während in konnektionistischen Systemen meist aus vorgegebenen Beispielen gelernt wird (``supervised learning '') und eher komplizierte Lernregeln verwendet werden (etwa der Backpropagation-Algorithmus , s. Rumelhart & McClelland, 1986), geht es bei den statistischen Verfahren um die Erkennung statistischer Regelmäßigkeiten in Texten (``unsupervised learning ''). Häufig kommen einfache Lerngesetze (vergleichbar mit der Hebb'schen Regel , s. Hebb, 1949) zur Anwendung, die etwa feststellen, ob bestimmte Konstruktionen im Text häufiger auftreten, als es rein statistisch zu erwarten wäre.
Es gibt eine Reihe von Gründen, weshalb in der statistischen Sprachverarbeitung nur selten auf die komplexeren konnektionistischen Methoden zurückgegriffen wird, obwohl diese eigentlich bessere Ergebnisse erwarten ließen. Zum einen hat es sich gezeigt, daß statistische Verfahren meist nur dann erfolgreich sind, wenn umfangreiche Korpora analysiert werden. Eine ausreichende Lerngeschwindigkeit ist aber derzeit in der Regel nur dann zu erzielen, wenn einfache Lernalgorithmen verwendet werden. Ein weiterer Vorteil der statistischen Verfahren liegt darin, daß der Lernvorgang einfacher zu durchschauen ist und sich damit die Algorithmen gezielter verbessern lassen. Bei konnektionistischen Verfahren ist es hingegen meist schwierig, ein Modell zu optimieren, da der Zusammenhang zwischen Ursache und Wirkung oft nicht leicht zu erkennen ist.
Die Vorteile statistischer und konnektionistischer gegenüber regelbasierten
Verfahren liegen darin, daß der Lernvorgang in aller Regel vollständig
maschinell abläuft, daß sie dadurch leicht auf unterschiedliche Bereiche
(andere Textsorte, andere Sprache) anpaßbar sind, und daß Gelerntes
immer auch generalisiert wird: Selbst wenn das System mit einer bestimmten
Eingabe nie konfrontiert wurde, wird es dennoch auf der Basis der zuvor
analysierten Texte die wahrscheinlichste Vorhersage machen. Darin liegt
jedoch auch der größte Nachteil: Da die im Text vorgefundenen
Wahrscheinlichkeiten zufälligen Schwankungen unterworfen sein können,
bedingt dies die Möglichkeit von Fehlern.
Demgegenüber streben die regelbasierten Verfahren der KI und der Linguistik
eine zu 100% richtige Verarbeitung an. Da sich für die bei der Verarbeitung
natürlicher Sprache erforderlichen Regeln aber bislang keine Vollständigkeit
erzielen ließ, ist das Ergebnis letztlich ebenfalls
unvollkommen.
Der Streit der Disziplinen ist letztlich nur eine Frage der Zweckmäßigkeit: Ist es besser, mit intellektuellen Verfahren eine kleine Anzahl komplexer Regeln zusammenzutragen oder mit maschinell ablaufenden statistischen Verfahren eine große Anzahl statistischer Parameter (vergleichbar mit sehr einfachen Regeln) zu extrahieren? Wenn man die zu erwartende Leistungsentwicklung von natürlicher und künstlicher Intelligenz vergleicht, ist abzusehen, daß die Zukunft den maschinellen Verfahren gehören wird, wenngleich beliebige Übergänge denkbar sind (s. auch Paprotté, 1994).
Bereits jetzt werden mit statistischen Verfahren in einigen Bereichen bessere Ergebnisse erzielt als mit regelbasierten. So schreiben etwa Waibel und Lee (1990, S. 4) in ihrem Sammelband grundlegender Aufsätze zur Spracherkennung : ``The pure knowledge-based approach emulates human speech knowledge using expert systems. Rule-based systems have had only limited success... Most successful large-scale systems today use a stochastic approach.'' Sampson (1987, S. 21) gibt die Erfolgsquote eines statistischen Systems zur kontextsensitiven Wortartenbestimmung wie folgt an: ``Currently, CLAWS is running at a rate of between 96% and 97% of words of authentic text correctly tagged ... We are unaware of any non-probabilistic system that comes close to matching this performance.'' In einigen anderen Bereichen, etwa bei der in dieser Arbeit behandelten Berechnung von Assoziationen, hat es bislang noch keine ernsthaften Versuche gegeben, diese mit einem regelbasierten Ansatz zu behandeln. Wie es scheint kommen die Vorteile statistischer Verfahren vor allem bei der Modellierung elementarer sprachlicher Prozesse zum Tragen. Hingegen ist zur Simulation sprachlicher Prozesse, die logisches Denken erfordern (wie etwa bei Frage-Antwort-Systemen), derzeit der Einsatz regelbasierter Systeme erfolgversprechender.
Im folgenden einige Literaturangaben zu Bereichen, in denen sprachstatistische Verfahren mit Erfolg eingesetzt werden:
In der vorliegenden Arbeit wird von einigen einfachen Annahmen über die Natur elementarer sprachlicher Prozesse ausgegangen. Die Grundannahme besteht darin, daß es zum Spracherwerb genügt, längere Zeit einem Fluß überwiegend korrekter sprachlicher Äußerungen ausgesetzt zu sein. Eine Rückkopplung, ob ein geäußerter Satz korrekt war oder nicht, ist auf der Ebene elementarer sprachlicher Prozesse nicht notwendig (Hanson & Kegl, 1987, sprechen von ``incremental positive evidence''). Stattdessen wird angenommen, daß im Gehirn Detektoren für bestimmte sprachstatistische Indikatoren existieren. Bei der Rezeption von Sprache registrieren diese Regelmäßigkeiten in der Abfolge von Wörtern.
Die Ergebnisse dieser Arbeit legen nahe, daß Detektoren beispielsweise für die folgenden sprachstatistischen Indikatoren erster und zweiter Ordnung existieren sollten:
Ob die genannten Detektoren tatsächlich von Wörtern als sprachlicher Grundeinheit ausgehen und ob die aufgeführten sprachstatistischen Indikatoren die wesentlichsten sind, sei dahingestellt. Es wird jedoch davon ausgegangen, daß die Auswahl der Indikatoren durch die Verschaltung der Neuronen im Gehirn festgelegt ist. Parameter wie Sprechgeschwindigkeit , mittlere Satzlänge und Verschachtelungstiefe von Relativsätzen werden durch diese Verschaltung sowie die Signallaufzeiten zwischen den Neuronen bestimmt.
Es wird angenommen, daß bei der Produktion von Sprache die bei der
Rezeption ermittelten sprachstatistischen
Parameter reproduziert werden. Da der Sprachgebrauch von Geburt
an seh- oder
hörbehinderter Menschen nicht erheblich von dem nicht Behinderter
abweicht, ist es offenbar für den Spracherwerb unwesentlich, ob die
Sprache über den akustischen oder den optischen Kanal aufgenommen
wird. Auch eine Interaktion zwischen verschiedenen Kanälen, wie oft
angenommen (etwa: man sieht einen Baum und hört das Wort ``Baum''), ist für
den Spracherwerb nicht erforderlich.
Wichtig zur Ermittlung
der sprachstatistischen Parameter ist hingegen die Rezeption einer
ausreichenden Menge gesprochener oder geschriebener Sprache.
Die zum Erwerb einer Sprache notwendige Sprachmenge läßt sich
leicht abschätzen. Nimmt man etwa an, daß zum Spracherwerb
zehn Jahre benötigt werden und täglich mit etwa 5 Stunden
Sprachrezeption bei einer Geschwindigkeit von 2 Wörtern pro Sekunde
zu rechnen ist, so kommt man auf etwa 130 Millionen
laufende Wortformen.
Ein statistisches System, das einer solchen Textmenge mit einer ähnlichen Zusammensetzung wie beim realen Spracherwerb ausgesetzt wird und dieselben statistischen Indikatoren berücksichtigt wie ein natürliches System, müßte demnach in der Lage sein, elementares Sprachverhalten zu simulieren. Dies wird in der vorliegenden Arbeit versucht, indem für einige Typen elementarer Sprachverarbeitungsprozesse Simulationsalgorithmen angegeben werden.
Zunächst wird im
. Kapitel einer der grundlegendsten
Sprachverarbeitungsprozesse untersucht, nämlich das freie Assoziieren .
Er bestimmt, welche Begriffe mit bestimmten Stimuli assoziiert werden.
Die Sprachproduktion wird als ein Vorgang angesehen, bei dem ausgehend
von rezipierten Stimuli ein Generierungsprozeß angestoßen wird, während
dessen nur auf solche Begriffe zurückgegriffen werden kann, die mit den
Stimuli assoziativ verknüpft sind. Anders ausgedrückt: Man kann einen
Sachverhalt nur mit den Begriffen formulieren, die einem
einfallen.
Trotz dieser grundlegenden Funktion
des Assoziierens sind in bisherigen sprachverarbeitenden Systemen
normalerweise keine Assoziationskomponenten vorhanden.
Kapitel
zeigt, daß das Erlernen von Wortassoziationen mit dem
aus der Psychologie bekannten Assoziationsgesetz erklärt werden kann,
daß die bei Versuchspersonen gefundenen freien Assoziationen also
dadurch berechnet werden können, daß das gemeinsame Auftreten von Wörtern
in Texten untersucht wird.
In Kapitel
wird gezeigt, daß der zunächst für das Deutsche
entwickelte Assoziationsalgorithmus in gleicher Weise auf die englische
Sprache angewandt werden kann. Offensichtlich sind die durch den
Algorithmus analysierten sprachstatistischen Indikatoren, nämlich das
gemeinsame Auftreten und die Häufigkeiten von Wörtern in Texten, so allgemeiner Natur,
daß sie gleichermaßen für unterschiedliche Sprachen gelten.
Im
. Kapitel geht es um die Verfeinerung des zuvor
verwendeten - zunächst auf Einfachheit der Modellierung ausgelegten -
Assoziationsalgorithmus.
In Kapitel
wird der Algorithmus dahingehend erweitert,
daß nicht zu einzelnen, sondern zu mehreren Stimuluswörtern
assoziiert werden soll. Hierbei werden die Assoziationen zu
mehreren Stimuluswörtern durch Überlagerung
der Assoziationen zu einzelnen Stimuli berechnet.
Die Kapitel
und
stellen zwei Anwendungen des
Assoziationsalgorithmus vor: Zum einen die maschinelle Generierung
geeigneter Suchwörter für das Information Retrieval in bibliographischen
Datenbanken , zum anderen die Analyse der assoziativen Wirkungen,
die von den in Werbespots verwendeten Begriffen ausgelöst werden.
Kapitel
erweitert die Untersuchung des gemeinsamen Vorkommens
von Wörtern auf einen Sonderfall, nämlich die Analyse zweisprachig
vorliegender, paralleler Texte . Es wird gezeigt, wie aus dem gemeinsamen
Vorkommen der Wörter innerhalb des Originals und des übersetzten
Textes auf die Übersetzungen der in den Texten vorkommenden Wörter
geschlossen werden kann. Dadurch ist es möglich, rein maschinell die
Rohfassung eines Wörterbuches zu erstellen.
In den anschließenden Kapiteln wird ein weiterer elementarer Sprachverarbeitungsprozeß behandelt, nämlich die Ergänzung fehlender Wörter in Lückentexten. Bei der Lückentextergänzung handelt es sich nicht mehr um freies Assoziieren, da in eine Textlücke nur solche Wörter eingesetzt werden können, die die durch die Umgebungswörter vorgegebenen syntaktischen Erfordernisse erfüllen. Der hier verfolgte Ansatz zur Lösung dieses Problemes besteht darin, daß das Programm zur Vorhersage eines in eine Textlücke einzusetzenden Wortes zunächst alle syntaktisch möglichen Wörter bestimmt, und diese anschließend dadurch in eine Rangfolge bringt, daß die assoziativen Verbindungsstärken zu den als Mehrwortstimuli betrachteten Inhaltswörtern in der Umgebung berechnet werden.
In Kapitel
wird zunächst eine Methode vorgestellt, die auf der
Basis der Auftretenshäufigkeiten von Wortfolgen in einem Korpus versucht,
Vorhersagen für die Lückentextergänzung zu machen. Die Ergebnisse werden
mit einer an Versuchspersonen durchgeführten Studie verglichen. Wie
sich zeigt, ist die vorgeschlagene Methode in der Lage,
Nahbereichsabhängigkeiten zwischen Wörtern zu berücksichtigen, versagt
jedoch bei Abhängigkeiten über größere Distanzen, wie Sie etwa bei
eingeschobenen Relativsätzen auftreten.
Kapitel
zeigt am Beispiel einer Anwendung, nämlich der
kontextsensitiven Rechtschreibfehlerkorrektur , daß diese Beschränkung
auf den Nahbereich
auf das sogenannte Sparse-Data-Problem zurückzuführen ist, also darauf,
daß ein Textkorpus in der Größenordnung von 100 Millionen Wörtern nur einen
winzigen Bruchteil aller gebräuchlichen Wortfolgen enthalten kann. Werden
hingegen anstatt Folgen von Wörtern Folgen von Wortarten betrachtet, was
für syntaktische Betrachtungen genügt, wird
das Sparse-Data-Problem entscheidend gemildert, da sich einige hunderttausend
Wortformen auf einige hundert Wortarten reduzieren lassen. In
Kapitel
wird ein Verfahren angegeben, wie die zu
einer Wortart gehörenden Wortformen maschinell ermittelt werden können,
und wie die Analyse der Häufigkeiten von Folgen von Wortarten in einem
annotierten Korpus dazu benutzt werden kann, eine kontextsensitive
Wortartenbestimmung durchzuführen.
In Kapitel
werden einige zur Realisierung der
vorgestellten korpuslinguistischen Methoden verwendeten Techniken und
Algorithmen vorgestellt, und das abschließende
. Kapitel
faßt die wichtigsten Ergebnisse der Arbeit zusammen.