Künstliche Intelligenz: Spracherkennung und Sprachverstehen


Johannes Gutenberg-Universität Mainz
Fachbereich Angewandte Sprach- und Kulturwissenschaft in Germersheim
Künstliche Intelligenz: Spracherkennung und Sprachverstehen
Referat zum Hauptseminar "Psycholinguistik: Mentale Prozesse in der Sprachverarbeitung"
SS 1997
Referentin: Dora Warth
Seminarleiter: Univ.-Prof. Dr. Dieter Huber

1 Das Forschungsgebiet der Künstlichen Intelligenz


Die Idee, denkende Maschinen zu konstruieren, kam bereits in der Antike auf. Nach der Erfindung des Computers um 1945 stand hierfür ein interessantes Werkzeug zur Verfügung. So wurden bald die ersten Programme geschrieben, die Schach spielen bzw. logische Theoreme beweisen konnten. Als offizielle Geburtsstunde des Forschungsgebietes "Künstliche Intelligenz" (KI) gilt eine Konferenz, die im Sommer 1956 am Dartmouth College in New Hampshire stattfand. Der Organisator John McCarthy prägte die Bezeichnung "Artificial Intelligence" als Thema dieser Konferenz. In der Folgezeit wurden verschiedene Forschungsprojekte in Angriff genommen. Zunächst mußten die theoretischen Grundlagen erarbeitet werden, bevor Ende der siebziger Jahre die Entwicklung praktischer Anwendungen beginnen konnte. Inzwischen werden KI-Produkte kommerziell vertrieben.[1]
Es gibt weder für natürliche noch für künstliche Intelligenz eine allgemein anerkannte Definition. Geprägt wurde der Begriff der Intelligenz gegen Ende des 19. Jahrhunderts im Zusammenhang mit der Entwicklung von Intelligenztests. Bei diesen Tests werden einzelne Faktoren wie Rechenfähigkeit, räumliches Sehen, Gedächtnis, Induktion, verbale Fähigkeiten usw. geprüft. Ob dies tatsächlich die wichtigsten Fähigkeiten zur Anpassung an neue Aufgaben und zur Lösung von Problemen sind, wie viele Definitionen von Intelligenz nahelegen, spielt hier keine Rolle. Wichtig ist jedoch, daß für die künstliche Intelligenz nicht genau dieselben Faktoren ausschlaggebend sein können wie für die natürliche Intelligenz: Beispielsweise wird ein Computer nicht allein aufgrund seiner großen Rechenfähigkeit oder hohen Speicherkapazität als intelligent bezeichnet. Zur künstlichen Intelligenz zählen nur die kognitiven Fähigkeiten, die man von einem Computer eigentlich nicht erwarten würde. Dies könnte, muß aber nicht bedeuten, daß der Bereich der künstlichen Intelligenz in Zukunft immer enger wird, wenn immer mehr KI-Anwendungen zur Selbstverständlichkeit werden. Der Sprachgebrauch könnte jedoch auch auf dem heutigen Stand stehenbleiben.[2]
Der Ausdruck "Künstliche Intelligenz" wird nicht nur als Bezeichnung für eine bestimmte Eigenschaft verwendet, sondern ist auch der Name des entsprechenden Forschungsgebietes. In diesem Sinn ist Künstliche Intelligenz ein Teilbereich der Informatik, der allerdings einen sehr interdisziplinären Charakter hat. Es bestehen Überschneidungen zur Psychologie, Philosophie, Linguistik und zu den Neurowissenschaften. Die Künstliche Intelligenz gliedert sich ebenfalls in verschiedene Teildisziplinen. Die wichtigsten Arbeitsgebiete sind: Verarbeitung natürlicher Sprache, Expertensysteme, Deduktionssysteme (d. h. automatisches Beweisen, Problemlösen, Programmieren...), Robotik und Bildverstehen.
Man erkennt, daß "es KI immer mit nichtnumerischen symbolischen Prozessen zu tun [hat], die komplex, ungenau und mehrdeutig sind und für die es keine allgemein bekannten algorithmischen Lösungen gibt."[3] Es handelt sich um Prozesse, die zwischen den berechenbaren und den chaotischen Prozessen anzusiedeln sind und bei denen Fehler und unterschiedliche Ergebnisse nie ganz auszuschließen sind. Außerdem spielt Wissen bei vielen KI-Anwendungen eine große Rolle. [4]



1.1 Methoden


Aus diesen gemeinsamen Merkmalen ergeben sich drei Hauptprobleme, für die in der KI Lösungsmöglichkeiten gefunden werden müssen: Das Wissen muß in geeigneter Form dargestellt werden, aus dem vorhandenen Wissen sollte neues, bisher noch nicht direkt verfügbares Wissen abgeleitet werden können und es muß durch ein geeignetes Suchverfahren eine möglichst gute Lösung für das jeweilige Anwendungsproblem gefunden werden.
Die Wissensrepräsentation erfolgt auf einer symbolischen Ebene, die zwischen der Realität bzw. der persönlichen Vorstellung von der Realität und der konkreten programmiertechnischen Realisierung liegt. Es gibt verschiedene Formalismen, z. B. semantische Netze, Frames, Scripts, Produktionsregeln und Logik (klassische Prädikatenlogik, nichtmonotone Logik (d. h., Inhalte der Wissensbasis können wieder gelöscht werden), Fuzzy Logik (d. h. es gibt neben "wahr" und "falsch" auch Zwischenstufen)).
Das zweite Problem in der KI, die Erschließung neuen Wissens ("Inferenz"), wird gelöst durch Deduktion (Schluß vom Allgemeinen auf das Besondere, z. B. "Menschen sind sterblich. Sokrates ist ein Mensch. Sokrates ist sterblich."), Induktion (Schluß vom Besonderen auf das Allgemeine, z. B. "Sokrates ist sterblich. Sokrates ist ein Mensch. Menschen sind sterblich."), Abduktion (Rückschluß, z. B. "Menschen sind sterblich. Sokrates ist sterblich. Sokrates ist ein Mensch.") und Analogie (Schluß von einem Sonderfall auf einen anderen aufgrund von Ähnlichkeit, z. B. "Sokrates ist sterblich. Aristoteles ist sterblich.").
Die Suchverfahren der KI sind dadurch gekennzeichnet, daß nicht alle Lösungsmöglichkeiten getestet werden; denn KI-Probleme sind in der Regel so komplex, daß dies zu lange dauern würde ("kombinatorische Explosion"). Daher werden die verschiedenen Lösungsansätze schon während der Suche bewertet, so daß aussichtslos erscheinende Ansätze aufgegeben werden können. Mit derartigen ("heuristischen") Suchverfahren wird relativ schnell eine gute, aber nicht in jedem Fall die beste Lösung gefunden.
Repräsentations-, Inferenz- und Suchverfahren müssen schließlich noch in eine computerverständliche Form gebracht werden ("Implementierung"). Die beiden Programmiersprachen, die hierzu am häufigsten verwendet werden, sind Prolog und LISP.
Eine Alternative zu den bisher vorgestellten Methoden des symbolischen Ansatzes bilden die künstlichen neuronalen Netze. Bei diesem ("konnektionistischen") Ansatz wird versucht, die Arbeitsweise des menschlichen Gehirns mit mathematischen Methoden nachzuahmen (s. u.).[5]


1.2 Zielsetzungen


Unabhängig von den Methoden gibt es in der KI zwei verschiedene Zielsetzungen: Im kognitionswissenschaftlichen, theorieorientierten Zweig geht es darum, Theorien über die menschliche Informationsverarbeitung zu überprüfen. Ziel ist also, das Denken besser zu verstehen.
Im ingenieurwissenschaftlichen, produktorientierten Zweig wird dagegen versucht, intelligente Programme zu entwickeln, die für die Praxis nützlich sind. Ziel ist also die Befriedigung von Bedürfnissen der Industrie oder der Gesellschaft.[6]


1.3 Philosophische Diskussion


Im Zusammenhang mit der Künstlichen Intelligenz stellt sich natürlich auch die Frage, ob es eines Tages möglich sein wird, ein System zu entwickeln, das in jeder Hinsicht intelligent ist und über menschliches Allgemeinwissen verfügt. Diese Vorstellung hat zu einer intensiven philosophischen Diskussion geführt. Im Mittelpunkt steht dabei die physical symbol hypothesis. Diese Hypothese besagt, daß jedes symbolverarbeitende System intelligent werden kann. Es kommt nur auf die richtigen Algorithmen an, das Material (die Hardware) ist irrelevant. Gehirn und Computer sind also nur verschiedene Arten von symbolverarbeitenden Systemen. Diese Vorstellung ergibt sich aus einem naturwissenschaftlichen Weltbild, nach dem alles berechenbar und erklärbar ist. Gegner der Hypothese wenden ein:


Gegen diese Argumente wird eingewendet, daß es in der Naturwissenschaft schon andere ernüchternde Entdeckungen gegen hat, die der Intuition widersprechen (z. B. die Tatsache, daß die Erde um die Sonne kreist).
Aus der physical symbol hypothesis folgt nicht automatisch, daß allgemein intelligente Maschinen konstruiert werden können: Dies ist möglicherweise zu kompliziert und zu aufwendig (Position von Winograd). Außerdem wäre es nicht unbedingt sinnvoll: "Wer käme auf die Idee, ein künstliches Pferd für die Fortbewegung des Menschen zu konstruieren? Technische Entwicklungen brauchen ihre ganz eigenen charakteristischen Ausprägungen."[8]. Es wäre sogar gefährlich (Position von Weizenbaum): Intelligente Maschinen könnten sich gegen den Menschen wenden oder mißbraucht werden, beispielsweise vom Militär, einem der wichtigsten Sponsoren.
Aus der Ablehnung der physical symbol hypothesis ergibt sich andererseits ebenfalls nicht automatisch die Schlußfolgerung, daß allgemein intelligente Maschinen nicht konstruiert werden können. Denn künstliche Intelligenz muß nicht unbedingt auf demselben Weg erreicht werden wie natürliche. Es ist nicht ausgeschlossen, daß ein Computer mit Regeln und Merkmalen theoretisch dieselben Leistungen erbringen könnte wie ein ganz anders arbeitendes Gehirn. Doch dies ist keineswegs Stand der Technik oder Stand der Kunst.[9]


1.4 Das Teilgebiet der Sprachverarbeitung und die Bedeutung der KI für die Psycholinguistik


Die Sprache ist einer der grundlegendsten und komplexesten Bestandteile der menschlichen Intelligenz. Daher ist die maschinelle Verarbeitung natürlicher Sprache ein wichtiger, aber schwieriger Teilbereich der KI. Es ergeben sich interessante Anwendungen, z. B. natürlichsprachliche Schnittstellen zu Datenbanken oder Expertensystemen, Bedienung technischer Geräte, Auskunftssysteme, Textzusammenfassung, maschinelle Übersetzung...
Doch auch die theoretische Seite der maschinellen Sprachverarbeitung ist von Interesse, und zwar unter anderem für die Psycholinguistik, die sich mit der menschlichen Sprachverarbeitung beschäftigt. Das folgende Zitat aus einem psycholinguistischen Lehrbuch zeigt die Bedeutung der Künstlichen Intelligenz für die Psycholinguistik:


...this research [into the automatic processing of language in artificial intelligence], while not necessarily providing plausible psychological models, has at least provided the psychologist with interesting suggestions and the example of rigorously defined theories. The exchange of ideas between artificial intelligence and cognitive psychology - within the framework of a `cognitive science' which has been developing for a number of years - is certain to play an important role in the development of psycholinguistics, and of psychology in general.[10]


Psycholinguisten können von der Künstlichen Intelligenz jedoch nicht nur Anregungen für die eigene Forschung gewinnen, sondern mit der Computersimulation steht auch eine neue Methode zur Verfügung, um psycholinguistische Theorien zu überprüfen. Vorteil dieser Methode ist, daß auch komplexe Theorien nachvollzogen werden können, die sonst nicht überschaubar wären. Außerdem zwingt die Computersimulation dazu, die aufgestellten Theorien sehr detailliert auszuarbeiten und implizite Annahmen zu explizieren.[11]
In der maschinellen Sprachverarbeitung müssen verschiedene Teilprobleme gelöst werden, die sich einteilen lassen in Spracherkennung (Umwandlung in ASCII-Code), Sprachverstehen (Umwandlung in eine interne Repräsentation), Sprachgenerierung (Umwandlung einer internen Repräsentation in natürliche Sprache) und Sprachsynthese (maschinelles "Aussprechen").
In dieser Arbeit werden nur die Aspekte "Spracherkennung" und "Sprachverstehen" berücksichtigt.


2 Spracherkennung


Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache. Das maschinelle Erkennen geschriebener Sprache wird als OCR (optical character recognition) bezeichnet. Dabei wird ein eingescannter Text in maschinenlesbare Form gebracht, indem Gruppen zusammenhängender Bildpunkte mit gespeicherten Mustern von Buchstaben, Zahlen und Sonderzeichen verglichen werden.
Bei der Spracherkennung wird gesprochene Sprache mit einem Mikrophon aufgenommen.
In einem ersten Schritt wird das (zunächst analoge) Sprachsignal digitalisiert, d. h. in eine Folge von binären Zahlen umgewandelt; denn nur in dieser Form kann es von einem Computer weiterverarbeitet werden.[12]
Der zweite Schritt ist die Merkmalsextraktion. Sie dient dazu, die Datenmenge zu reduzieren. Das Sprachsignal wird durch drei Größen bestimmt: Zeit, Frequenz und Intensität (Lautstärke). Man kann es als Fläche im dreidimensionalen Koordinatensystem darstellen. Bei der Merkmalsextraktion werden bestimmte Punkte aus dieser Fläche ausgewählt. Dazu wird das Sprachsignal in kurze Zeitabschnitte (Frames) eingeteilt. In jedem Zeitabschnitt wird für ca. 20 sprachrelevante Frequenzen die Intensität ermittelt. Diese Werte werden für jeden Zeitabschnitt in einem Merkmalsvektor dargestellt.[13]
Im dritten Schritt erfolgt die Klassifikation, d. h. es wird ermittelt, welchen Phonemen oder Wörtern das Sprachsignal entspricht. Hierzu gibt es verschiedene Verfahren:




2.1 Klassifikationsverfahren

2.1.1 Mustervergleich ganzer Wörter


Bei dieser Methode werden dem System in einer Trainingsphase alle Wörter vorgesprochen, die es später erkennen soll. Beim Erkennungsvorgang vergleicht dann das System die Äußerungen des Benutzers mit den gespeicherten Mustern der Sprechproben. Da ein Wort nie zweimal genau gleich ausgesprochen wird, stimmt das zu erkennende Wort nie genau mit dem gespeicherten Muster überein. Es muß daher ein Maß für die Ähnlichkeit festgelegt werden (z. B. die Euklidische Distanz der einzelnen Merkmale).
Folgende Probleme treten bei der Spracherkennung auf:




2.1.2 Hidden-Markov-Modelle


Die Leistungsfähigkeit von Spracherkennungssystemen kann verbessert werden, wenn berücksichtigt wird, daß nicht alle Merkmale gleich wichtig sind. Es ist z. B. unwahrscheinlich, daß ein zu erkennendes Wort einem bestimmten Muster entspricht, wenn ihm ein sehr charakteristisches Merkmal fehlt. Nun gibt es einen Algorithmus, nach dem berechnet werden kann, wie wahrscheinlich es ist, daß eine bestimmte Folge von Merkmalsvektoren (Beobachtungsfolge) durch ein bestimmtes Wort (Modell) erzeugt wurde. Diese Wahrscheinlichkeit wird für alle Wörter berechnet. Das Wort mit der größten Wahrscheinlichkeit gilt als erkannt. Die Berechnung beruht darauf, daß jedes Wort in mehrere Zustände eingeteilt wird. Ein Zustand ist die Äußerung innerhalb eines kurzen Zeitabschnitts. Als Eingabe-Parameter des Algorithmus dienen: die Wahrscheinlichkeit, daß ein bestimmter Zustand zu einer bestimmten Beobachtung (hier: zu einem bestimmten Merkmalsvektor) führt und die Übergangswahrscheinlichkeit von einem Zustand zu einem anderen. Diese Parameter werden zunächst geschätzt und dann schrittweise verbessert, indem neue Beobachtungen mit den alten Schätzwerten verrechnet werden (Baum-Welch-Algorithmus).[17]
Wenn nicht nur einzelne Wörter, sondern ganze Sätze erkannt werden sollen, kann das Verfahren der Hidden-Markov-Modelle auf mehreren Ebenen angewendet werden: Auf der untersten Ebene werden Allophone in Zustände eingeteilt; die Allophone sind dann Zustände von Wörtern; die Wörter sind Zustände von Wortketten oder syntaktischen bzw. semantischen Einheiten; diese Einheiten sind Zustände von Sätzen... Zur Vereinfachung wird hier nach einem anderen Algorithmus (Viterbi) nur die jeweils wahrscheinlichste Zustandsfolge berechnet (statt der Summe der Wahrscheinlichkeiten aller Zustandsfolgen).[18]


2.1.3 Erkennung anhand akustischer Merkmale von Phonemen


Bei dieser Methode wird versucht, die einzelnen Phoneme direkt anhand ihrer akustischen Eigenschaften zu identifizieren. Es ist beispielsweise bekannt, daß ein /s/ länger als 50 ms dauert und hauptsächlich Frequenzen über 44 kHz aufweist. Solche Kenntnisse werden in Regeln umgesetzt oder für statistische Klassifikationsverfahren genutzt.[19]


2.1.4 Künstliche Neuronale Netze


Zur Spracherkennung werden auch Künstliche Neuronale Netze verwendet. Bei dieser KI-Methode wird versucht, die Arbeitsweise des Gehirns zu simulieren.
Die Verarbeitungseinheiten des Gehirns sind die Neuronen. Diese ca. 1010 Nervenzellen empfangen elektrochemische Impulse und geben unter bestimmten Umständen Impulse an andere, mit ihnen verbundene Neuronen weiter. Die Ausgabe erfolgt über einen langen verzweigten Faserfortsatz, das Axon, die Eingabe über kürzere Eingangsfasern, die Dendriten. Ein Neuron hat durchschnittlich 10 000 Dendriten. Es empfängt daher meist mehrere Impulse zu etwa derselben Zeit. Diese Impulse addieren sich zu einem Gesamtimpuls. Wenn der Gesamtimpuls einen bestimmten Schwellenwert übersteigt, gibt das Neuron einen Impuls ab, es "feuert". Der Impuls ist bei der Abgabe immer etwa gleich groß. An den Kontaktstellen zu anderen Neuronen, den Synapsen, wird er jedoch verstärkt oder gehemmt. Die Wirkung der Synapsen auf die Impulse kann durch Lernen verändert werden.[20]
Für diese Tatsachen wird nun ein mathematisches Modell formuliert: Da abgegebene Impulse immer gleich groß sind, genügen zwei Zahlen, um die Ausgabe (a) eines Neurons zu beschreiben, z. B. 1 (Impuls) und 0 (kein Impuls). Die Tatsache, daß die Impulse an den Synapsen gehemmt oder verstärkt werden, wird durch Multiplikation mit positiven oder negativen Zahlen simuliert. Diese Zahlen werden als Gewichte (w) bezeichnet. Ein Neuron kann mehrere Eingänge haben und feuert dann, wenn der Gesamtimpuls einen Schwellenwert übersteigt. Die Werte der Impulse an den verschiedenen Eingängen (e) werden also addiert. Von der Summe wird der Schwellenwert ([theta]) abgezogen. Ist das Ergebnis größer als 0, so wird das Ergebnis einer Transferfunktion auf 1 gesetzt - das Neuron feuert. Ist das Ergebnis kleiner als 0, so ist f(x)=0 - das Neuron feuert nicht.
Das hier dargestellte mathematische Modell für ein Neuron kann in verschiedenen Programmiersprachen auf einem gewöhnlichen seriellen von-Neumann-Computer implementiert werden.[21]


Natürlich werden in der Praxis stets mehrere Neuronen miteinander vernetzt. Mathematisch bedeutet dies, daß mit Vektoren und Matrizen gerechnet wird. Für die Implementierung solcher neuronaler Netze gilt, daß serielle Computer mit einem einzigen Prozessor nur für einfache Anwendungen geeignet sind; denn es ist sehr zeitaufwendig, die Werte aller Neuronen nacheinander zu berechnen. Daher bieten sich spezielle Hardware-Realisierungen an, die eine Parallelverarbeitung ermöglichen (Multiprozessorsysteme, spezielle Neuro-Chips, analoge Bauelemente, optische Computer[22]). Dies kommt auch der Arbeitsweise des Gehirns näher, das man als "gigantisches Parallelverarbeitungssystem"[23] ansehen kann.

Man unterscheidet verschiedene Arten von neuronalen Netzen:

- einstufige Netze haben nur zwei Neuronen-Schichten, während bei mehrstufigen Netzen mindestens eine versteckte Schicht (hidden layer) zwischen Ein- und Ausgabeschicht liegt.

einstufiges Netz

Abbildung 1: einstufiges Netz[24]

zweistufiges Multi-Layer-Perzeptron

Abbildung 2: zweistufiges Multi-Layer-Perzeptron [25]

- bei Feed-Forward-Netzen kommt es nur auf die Ausgabe eines einzelnen Netzdurchlaufs an; bei Netzen mit Rückkopplung werden die Ausgabewerte eines Durchlaufs so lange zu den Eingabewerten eines neuen Durchlaufs, bis sich die Werte nicht mehr ändern.[26]


Die korrekten Gewichte eines neuronalen Netzes sind in der Regel nicht von vornherein bekannt. Sie müssen in einer rechenintensiven Trainingsphase bestimmt werden. Es gibt verschiedene Lernverfahren. Ein Beispiel ist das "Supervised Learning". Es setzt voraus, daß der gewünschte Output bereits bekannt ist. Für die Gewichte werden zunächst Zufallszahlen eingesetzt. Dann wird mit diesen Gewichten für irgendeine Eingabe der Output berechnet. Dieser Output wird mit dem gewünschten Output verglichen. Wenn keine Übereinstimmung besteht, werden die Gewichte nach einer Korrekturformel verbessert. Die verbesserten Gewichte werden mit einer neuen Eingabe getestet.[27] Nach einem ausreichenden Training arbeitet das Netz (im Idealfall) nicht nur für den Trainingsdatensatz, sondern für alle Eingaben korrekt. Es hat also die Fähigkeit, ausgehend von den Trainingsbeispielen zu "generalisieren".[28]
Für die Spracherkennung werden häufig mehrstufige Feed-Forward-Netze eingesetzt, z. B. das Multi-Layer-Perceptron (siehe Abbildung 2). Da der gewünschte Output bekannt ist, bietet sich das Lernverfahren des Supervised Learning an (genauer: Backpropagation). Als Eingabe dienen die Merkmale des Sprachsignals. Die Anzahl der Merkmale, die dem Netz in einem Durchgang angeboten werden, muß konstant sein. Sie entspricht der Anzahl der Eingangsneuronen. Die Anzahl der Ausgangsneuronen hängt davon ab, wieviele Wörter (oder andere Einheiten) erkannt werden sollen. Jedes Ausgabeneuron steht für ein Wort. Als erkannt gilt das Wort, dessen Neuron den Wert 1 ausgibt.[29]




2.2 Maschinelle Spracherkennung vs. menschliche Sprachwahrnehmung


Es ist schwierig zu sagen, welches der vorgestellten Klassifikationsverfahren den Vorgängen im menschlichen Gehirn am ehesten entspricht, da es verschiedene Theorien zur Sprachwahrnehmung gibt.
Zunächst stellt sich die Frage, welches die grundlegenden Wahrnehmungseinheiten sind: Phoneme, Wörter oder sonstige Einheiten wie z . B. Silben. Gegen Wörter als kleinste relevante Einheiten spricht, daß Menschen auch unbekannte Wörter und Neologismen korrekt erkennen können. Es ist ebenfalls unwahrscheinlich, daß die Sprachwahrnehmung ausschließlich auf Phonemen beruht, da keine 1:1-Übereinstimmung zwischen akustischen Sprachsignalen und erkannten Phonemen besteht: Je nach Kontext wird dasselbe Sprachsignal unterschiedlich interpretiert (z. B. wird eine Frequenz von 1440 Hz vor (i) als (p) und vor (a) als (k) wahrgenommen[30]). Außerdem werden oft auch solche Phoneme spontan richtig erkannt, die z. B. wegen eines Störgeräusches gar nicht hörbar waren, die sich aber aus dem vorausgehenden Kontext ergeben. Dies deutet darauf hin, daß bei der Sprachwahrnehmung nicht isolierte Phoneme aneinandergereiht werden, sondern daß von Anfang an auch höhere Verarbeitungsstufen beteiligt sind (Worterkennung, syntaktische Analyse, semantische Analyse), die parallel ablaufen und deren Ergebnisse berücksichtigt werden können. Bei der Sprachwahrnehmung sind also bottom-up- und top-down-Prozesse kombiniert.
Für die maschinelle Spracherkennung ergibt sich somit: Bezüglich der Wahrnehmungseinheiten kommen diejenigen Systeme den menschlichen Prozessen am nächsten, die auf mehreren Ebenen arbeiten und sich nicht z. B. auf einen Mustervergleich ganzer Wörter oder die Erkennung anhand akustischer Merkmale von Phonemen beschränken.
Eine Hilfe bei der Spracherkennung ist vermutlich auch das Wissen der Menschen über die Häufigkeit bzw. Auftretenswahrscheinlichkeit von Wörtern, Phonemen und anderen Einheiten sowie über das mögliche und wahrscheinliche Aufeinanderfolgen dieser Einheiten bzw. die Übergangswahrscheinlichkeiten. Diese beiden Wahrscheinlichkeiten werden in der Psycholinguistik im Rahmen des informationstheoretischen Ansatzes untersucht. Bei der Spracherkennung werden sie für das Rechnen mit Hidden-Markov-Modellen benötigt. Allerdings sind sie bei der Sprachwahrnehmung wahrscheinlich nur ein Hilfsmittel, während bei den Hidden-Markov-Modellen die gesamte Zuordnung auf diesen Wahrscheinlichkeiten beruht.
In der Psycholinguistik gibt es verschiedene Theorien darüber, wie die erkannten Phoneme, Wörter usw. dem Sprachsignal zugeordnet werden. Ältere Ansätze gingen von einem "Schablonenvergleich" (engl. template matching) oder von einer Analyse nach distinktiven Merkmalen (z. B. Stimmhaftigkeit, Nasalität, Dauer) aus. Ersterem entspricht in der Spracherkennung ungefähr der "Mustervergleich ganzer Wörter", letzterem die "Erkennung anhand akustischer Merkmale von Phonemen". Nach einer anderen Theorie, dem Analyse-durch-Synthese-Modell, analysieren Menschen ein Sprachsignal, indem sie intern so lange stumme Lautfolgen erzeugen, bis eine dieser Lautfolgen mit dem wahrgenommenen Sprachsignal übereinstimmt. Die "Motor-Theorie der Sprachwahrnehmung" geht näher darauf ein, wie diese internen Lautfolgen erzeugt werden: Man versucht, durch eigene sprechmotorische Tätigkeit die Artikulationsbewegungen des Sprechers nachzuvollziehen.
Die neueren konnektionistischen Modelle beruhen auf dem Gedanken, daß die Sprachwahrnehmung parallel auf verschiedenen Ebenen abläuft, die miteinander vernetzt sind und zwischen denen eine Interaktion stattfindet. Wenn ein Knoten aktiviert wird, aktiviert er bestimmte Knoten der nächtshöheren und nächsttieferen Ebene und hemmt die anderen Knoten der eigenen Ebene. Das Element eines Knotens (z. B. Phonem, Wort) gilt dann als erkannt, wenn die Aktivationshöhe des Knotens einen Schwellenwert überschreitet. Interessant ist, daß der Schwellenwert auch dann überschritten werden kann, wenn noch nicht alle zugehörigen Knoten der tieferen Ebenen aktiviert sind. Ein Wort kann also z. B. erkannt werden, bevor alle Phoneme ausgesprochen wurden.
Den konnektionistischen Modellen der Sprachwahrnehmung entsprechen in der maschinellen Spracherkennung die Künstlichen Neuronalen Netze.[31]


3 Sprachverstehen


Die Spracherkennung kann zwei unterschiedlichen Zwecken dienen: Bei der Sprachtranskription geht es nur darum, eine schriftliche Version des gesprochenen Textes zu erhalten - die Bedeutung ist irrelevant. Bei anderen Anwendungen soll das System auf den Inhalt der Äußerung reagieren, z. B. indem es eine Frage beantwortet. Hierzu ist Sprachverstehen nötig.[32] Dies ist vor allem deshalb schwierig, weil natürliche Sprache oft mehrdeutig ist und weil Menschen nicht immer alle Tatsachen und Zusammenhänge ausdrücklich erwähnen. Um Mehrdeutigkeiten auflösen und "mitgedachte" Tatsachen ergänzen (inferieren) zu können, benötigt der Rezipient Welt- oder Situationswissen. Einem Sprachverstehenssystem muß daher nicht nur sprachliches, sondern auch außersprachliches Wissen zur Verfügung gestellt werden. Dies ist sehr aufwendig, da auch Details berücksichtigt werden müssen, die für Menschen selbstverständlich sind.[33]
Ein Computerprogramm soll Sprache in dem Sinn verstehen, daß es eine Äußerung in eine interne Repräsentation umsetzt, d. h. in eine Darstellung, die es weiterverarbeiten kann und die ihm eine angemessene Reaktion ermöglicht.[34] Es wird darüber diskutiert, ob es sich hier um wirkliches Verstehen handelt oder ob das Wort "verstehen" im übertragenen Sinn gebraucht wird und das Verstehen nur simuliert ist. Für letzteres spricht, daß der Computer nicht bewußt versteht und das Verstehen nicht erlebt.[35] Außerdem kann er Aussagen über Liebe, Müdigkeit, Schmerz usw. nicht im Sinn einer "völligen Einfühlung"[36] verstehen. Gegen dieses Argument wird eingewendet, daß es verschiedene Ebenen des Verstehens gibt und der Computer die Aussagen auf niedrigerer Ebene versteht. Für die Auffassung, daß man auch das Verstehen durch einen Computer als wirkliches Verstehen betrachten kann, spricht vor allem die Tatsache, daß nach verschiedenen Theorien das menschliche Verstehen ebenfalls als Umsetzung in eine interne Repräsentation definiert wird. Beispielsweise geht Johnson-Laird in seiner Theorie mentaler Modelle davon aus, daß ein menschlicher Rezipient einen Text zunächst in Propositionen (Prädikat-Argument-Strukturen) umwandelt. Auf der Grundlage dieser propositionalen Repräsentation baut er anschließend mentale Modelle (etwa: innere Bilder oder Filme) auf.[37] Menschen und Computer verwenden zwar nicht dieselbe Art der Repräsentation, in beiden Fällen handelt es sich jedoch um eine Umsetzung, die eine sinnvolle Weiterverarbeitung ermöglicht.
In den folgenden Abschnitten werden zunächst zwei Beispiele für Repräsentationsformalismen vorgestellt. Anschließend werden zwei Arten von Wissensstrukturen erläutert, die im System gespeichert werden können und die das Verstehen neuer Informationen erleichtern sollen.


3.1 Semantische Netze


Die semantischen Netze gehören zu den "am weitesten verbreiteten Schemata zur expliziten Repräsentation von Wissen in sprachverstehenden Systemen".[38] Sie bestehen aus einer Menge von Knoten, die durch gerichtete und beschriftete Kanten miteinander verbunden sind. Die Knoten repräsentieren begriffliche Einheiten wie Objekte, Vorgänge, Zustände, Orte, Zeitabschnitte, Eigenschaften, Zahlen usw. Die Kanten bringen die Beziehungen zwischen diesen Einheiten zum Audruck. Es gibt verschiedene Arten von Beziehungen:

Semantische Netze werden in Form eines Graphen dargestellt:[39]

semantisches Netz

Abbildung 3: semantisches Netz [40]


Semantische Netze stehen in zweierlei Bezug zur Psycholinguistik:

- Erstens beruhen die Netzwerkmodelle zur Repräsentation der Wortbedeutung im mentalen Lexikon auf semantischen Netzen. Bei den Netzwerkmodellen spielt allerdings im Unterschied zu den semantischen Netzen die Relation "instance_of" keine Rolle[41], da nur Wortbedeutungen beschrieben werden sollen, nicht aber das Wissen über konkrete reale Objekte.
Das mentale Lexikon ist ein Wortverzeichnis im Langzeitgedächtnis, in dem neben den semantischen Informationen, auf die sich die Netzwerkmodelle beziehen, auch phonologische, graphematische, morphologische, syntaktische und pragmatische Informationen enthalten sind.
Die wichtigste Alternative zu den Netzwerkmodellen sind die Merkmalsmodelle. Während es bei den Netzwerkmodellen auf die Verbindungen zwischen den Wörtern ankommt, wird bei den Merkmalsmodellen die Bedeutung anhand semantischer Merkmale unterschieden (z. B. ± belebt, ± menschlich, ± erwachsen...).

- Zweitens wurden die semantischen Netze als Modell der Repräsentation von Wissen jeder Art im Langzeitgedächtnis aus der Künstlichen Intelligenz in die Psycholinguistik übernommen, allerdings nicht vorbehaltlos:


They [semantic networks] are concerned with the representation of knowledge, and their relation to psycholinguistics is sometimes tenuous - apart from the fact that the knowledge in question is generally learned (and can be formulated) in verbal form. While these models provide only a limited explanation of the actual processes of language comprehension, they are particularly concerned with representing what form the results of these processes take in memory. For this reason, therefore, the psycholinguist cannot neglect them.[42] [...]
We must also point out that, in fact, these diverse semantic network models are derived more from the field of artificial intelligence than from psychology. No doubt they all aim to have a psychological validity - or at least plausibility. However, it is difficult to assess the extent to which they are based on well-established experimental data, intuitive consideration, programming constraints, or simply personal preference.[43] [44]




3.2 Conceptual Dependency


Die Conceptual-Dependency-Theorie wurde zu Beginn der 70er Jahre von Roger Schank in Yale entwickelt. Sie beruht auf dem Konzept des semantischen Netzes; es bestehen allerdings u. a. folgende Unterschiede:

- Es gibt verschiedene Arten von Kanten, die bestimmten Beziehungen (dependencies) entsprechen, z. B.


Beispiele für dependencies

Abbildung 4: Beispiele für dependencies


- Die Tätigkeiten werden nicht mit Verben der natürlichen Sprache ausgedrückt, sondern alle Tätigkeiten werden auf ungefähr 11 primitive Aktionen zurückgeführt, z. B.



...
ATRANS - transfer a relationship (give)
PTRANS - transfer physical location of an object (go)
PROPEL - apply physical force to an object (push)
...
MTRANS - transfer mental information (tell)
MBUILD - mentally make new information (decide)
...
ATTEND - focus sense organ (listen)[45]


Jede dieser primitiven Aktionen ist mit bestimmten Slots (Leerstellen) verknüpft, z. B. ACTOR, FROM, TO. Bei der Analyse wird versucht, diese Slots zu füllen.
Ein Grundgedanke der Conceptual Dependency Theory ist, daß Sätze mit gleicher Bedeutung auf gleiche Weise dargestellt werden, z. B.
Conceptual Dependency Repräsentation

Abbildung 5: Conceptual Dependency Repräsentation

= 1. Patrick gibt John eine Zeitung.
2. Patrick überreicht John eine Zeitung.
3. John erhält eine Zeitung von Patrick.
4. John kriegt eine Zeitung von Patrick.
5. Patrick gives a newspaper to John.
6. Patrick donne un journal à John.

Auf diese Weise wird das Ziehen von Schlußfolgerungen erleichtert: Die Inferenzregeln werden mit den primitiven Aktionen verknüpft und müssen nicht für jeden Einzelfall formuliert werden. Beispielsweise gilt für jede Art von Informationstransfer, daß die Informationen zum Ziel gelangen und gleichzeitig bei der Quelle bleiben. Außerdem sind viele Schlußfolgerungen direkt in der Darstellung enthalten (vgl. im Beispiel Satz 2 und 3).
Ein weiterer Vorteil der primitiven Aktionen ist ihre Sprachunabhängigkeit. Ausgehend von einer internen Repräsentation können daher Sätze in verschiedenen Sprachen generiert werden (vgl. im Beispiel Satz 5 und 6). Anscheinend ist mit Conceptual Dependency das Übersetzen nicht wesentlich komplizierter als das Paraphrasieren des Ausgangstextes[46].
Ein positiver Aspekt ist auch die Verminderung von Mehrdeutigkeiten: Es ist immer die Lesart die wahrscheinlichste, nach der die Slots am besten gefüllt werden können.
Allerdings hat die Conceptual Dependency Theory auch zahlreiche Nachteile. Vor allem ist hier der hohe Aufwand zu nennen. Ein einfacher Satz wie "Jim erschoß John" muß zerlegt werden in "Die Gesundheit von John beträgt in der Vergangenheit -10 auf einer Skala von -10 bis +10, weil Jim eine Kugel, die sich in einem Gewehr befand, mit einem Impuls in Richtung auf John versehen hat."
Außerdem gehen viele Nuancen der natürlichen Sprache verloren. Zwischen Wörtern wie "überreichen" und "geben" oder "erhalten", "bekommen" und "kriegen" bestehen durchaus feine Unterschiede.
Weitere Kritikpunkte sind: Vernachlässigung der Syntax, Wilkür, keine theoretische Begründung, keine Kontrollierbarkeit des Ergebnisses, Unvollständigkeit, Vagheit, keine intuitive Durchschaubarkeit...[47]
Aus psychologischer Sicht stellt sich die Frage, ob Sätze tatsächlich in Form von Conceptual Dependency Strukturen im Langzeitgedächtnis gespeichert werden. Dagegen spricht, daß man sich dies nur schwer vorstellen kann, da uns die Conceptual Dependency Repräsentation oft sehr fremd vorkommt. Denken wir beim Satz "Jim erschoß John" wirklich an den Impuls der Gewehrkugel? Empfinden wir "erröten" tatsächlich als Zustandsänderung und "schwitzen" als Handlung?[48] Ist das Wirken der Schwerkraft allen Menschen so bewußt, daß sie den Satz "Das Buch fiel vom Tisch auf den Boden" umwandeln in "Die Schwerkraft beförderte das Buch vom Tisch auf den Boden"?[49]
Ein weiteres Gegenargument ist, daß wir zumindest in manchen Fällen und zumindest teilweise auch syntaktische Informationen speichern. Wenn dies nicht so wäre, könnten beispielsweise Versuchspersonen in Wiedererkennungsexperimenten nicht unterscheiden, ob ihnen der Satz "Hans erwürgte Fritz" oder "Hans bewegte seine Hände zum Hals von Fritz und drückte zu, was zur Folge hatte, daß Fritz nicht mehr atmen konnte, was zur Folge hatte, daß Fritz starb"[50] vorgelegt wurde. Die Speicherung syntaktischer Informationen wird jedoch in der Conceptual Dependency Theory nicht berücksichtigt.



3.3 Scripts


Textproduzenten erwähnen in der Regel nicht alle Einzelheiten ausdrücklich, sondern erwarten von den Rezipienten, daß sie fehlende Details aus ihrem Vorwissen ergänzen. Daher ist es sinnvoll, ein Computerprogramm, das natürliche Sprache verstehen soll, mit solchem Vorwissen auszustatten. Eine Art des Wissens sind Kenntnisse über stereotype Ereignisfolgen wie Restaurantbesuche, wissenschaftliche Vorträge, Konzerte, Zahnarztbesuche... Wissensstrukturen, die solche Ereignisfolgen beschreiben, werden von Schank und Abelson als Scripts bezeichnet.
Das bekannteste Beispiel ist das Restaurant-Script. Es beschreibt, wie ein Restaurantbesuch normalerweise abläuft (hier stark vereinfacht):

  1. Gast betritt das Restaurant (=ptrans, Gast, Gast, Irgendwoher, Restaurant)
    Gast sucht einen Tisch.
    Gast entscheidet sich, wo er sitzen will.
    Gast setzt sich.
  2. Gast nimmt die Karte.
    Gast liest die Karte.
    Gast entscheidet sich für ein Gericht.
    Bedienung kommt zum Tisch.
    Gast bestellt.
  3. Bedienung bringt das Gericht zum Gast.
    Gast ißt.
  4. Bedienung schreibt Rechnung.
    Bedienung gibt Gast die Rechnung.
    Gast bezahlt.
    Gast verläßt das Restaurant.[51]



Die beiden wichtigsten Funktionen eines Scripts sind:


Auf diese Weise kann z. B. folgende Geschichte verstanden werden: "William ging in ein Restaurant. [wichtigste Ergänzung: Er setzte sich an einen Tisch.] Er bestellte einen Salat. [wichtigste Ergänzung: Er aß.] Als ihm die Bedienung die Rechnung brachte, bemerkte er, daß er nicht genügend Geld hatte, um sein Essen zu bezahlen. [Abweichung vom Script] Er hinterließ daher seine Adresse, bevor er das Restaurant verließ."[52]
Scripts spielen auch in der Psycholinguistik eine Rolle. Sie sind mit den Schemata verwandt bzw. können sogar als Sonderfall der Schemata betrachtet werden. Schemata sind "abstrakte Repräsentation[en] von bedeutsamen Zusammenhängen in einem bestimmten Realitätsbereich [...], die aufgrund von Erfahrungen als typisch angesehen werden; dabei kann es sich um die konzeptuelle Abbildung von Gegenständen, Zuständen, Ereignissen oder Handlungen handeln."[53] Nach der Schematheorie werden im Gedächtnis gespeicherte Schemata bei der Textrezeption aktiviert und führen zu Erwartungen. Das aktivierte Vorwissen wird dann vom Rezipienten neben den Textinformationen zur Sinnkonstruktion herangezogen. Top-down-Prozesse sind also auch für das Sprachverstehen von großer Bedeutung.
Es wurden verschiedene Versuche durchgeführt, um zu prüfen, ob Scripts psychologisch relevant sind. Dabei stellte sich u. a. heraus, daß Sätze, an die sich Leser zu erinnern glauben, obwohl diese Sätze nicht in der vorgelegten Geschichte vorkamen, oft zu dem Script gehören, auf dem die Geschichte beruht.[54] Außerdem werden Sätze, die sich auf unmittelbar aufeinanderfolgende Scripthandlungen beziehen, schneller gelesen und somit schneller verstanden als andere Sätze.[55]



3.4 Pläne und Ziele


Scripts beziehen sich nur auf stereotype, häufig wiederkehrende Handlungsfolgen. Menschen können jedoch auch mit Situationen umgehen, die neu und ungewöhnlich sind. Da für solche Situationen kein Script existiert, müssen die Beteiligten ihre Handlungen selbst planen. Sie stellen also Pläne auf, um ihre Ziele zu erreichen.
Wissen über Pläne und Ziele von Menschen ist oft die Voraussetzung dafür, daß zwischen den einzelnen Sätzen eines Textes ein Zusammenhang hergestellt werden kann. Beispiel:


Die Schüler hatten Lust auf ein Eis. Sie fragten eine vorbeigehende Frau nach einer Eisdiele.

Für Menschen ist selbstverständlich, daß sich diese beiden Sätze nicht auf Tatsachen beziehen, die voneinander unabhängig sind. Ein Computerprogramm, das dies ebenfalls erkennen soll, benötigt Wissensstrukturen über Pläne und Ziele von Menschen. Es muß aus dem ersten Satz das Ziel verwenden(eis) ableiten. Zu diesem Ziel ist gespeichert, daß das Teilziel wissen(ort(eis)) erfüllt sein muß. Einer der Standardpläne zum Erreichen dieses Teilziels ist das Fragen. Darauf bezieht sich der zweite Satz des obigen Textes. Wenn das Programm dies erkennt, hat es den Zusammenhang zwischen den Sätzen verstanden.[56]


4 Beispiele für spracherkennende oder -verstehende Programme


Spracherkennung wird u. a. für Diktiersysteme eingesetzt. Die bekanntesten Programme auf diesem Gebiet sind VoiceType von IBM (VoiceType Dictation 3.0 für professionellen Einsatz um 1520 DM und VoiceType Simply Speaking mit reduzierten Funktionen um 199 DM) sowie DragonDictate 2.0 von Dragon Systems. IBM verspricht für VoiceType eine Erkennungsrate von über 95 %. Voraussetzung dafür ist allerdings, daß das System vom jeweiligen Benutzer trainiert wurde und daß beim Diktieren zwischen den Wörtern kurze Pausen gemacht werden. Das Grundvokabular von 30 000 Wörtern kann auf 64 000 Wörter erweitert werden.[57]
Eines der ersten sprachverstehenden Programme war SHRDLU von Terry Winograd (1972). Es simuliert auf dem Bildschirm einen Roboterarm, der Bauklötze in verschiedener Form und Farbe nach den Anweisungen des Benutzers hin und her bewegt. SHRDLU versteht natürliche Sprache nur in einer sehr beschränkten "Mikrowelt".[58]
Ein Beispiel für ein System, bei dem Spracherkennung und Sprachverstehen kombiniert sind, ist HEARSAY-II.[59]
Zur Zeit wird in Saarbrücken das Dolmetschprogramm Verbmobil entwickelt. Es erkennt (sprecherunabhängig) auf Deutsch oder Japanisch gesprochene Sätze aus dem Gebiet der Terminabsprache, analysiert sie syntaktisch und semantisch (tiefe Analyse) und ordnet sie Dialogakten wie suggest_date oder accept_date zu ("flache" Verarbeitung), generiert eine englische Übersetzung und spricht sie aus. An dem Forschungsprojekt sind ca. 30 Universitäten, Forschungszentren bzw. Unternehmen beteiligt. Es wurde seit 1993 mit 65 Millionen DM von der deutschen Regierung gefördert. In der jetzt anlaufenden zweiten Projektphase soll u. a. der Themenbereich ausgeweitet werden. Ein System, das Äußerungen zu jedem Thema versteht, ist allerdings in absehbarer Zukunft nicht zu erwarten.[60]


Literaturverzeichnis


"Mit Weltwissen gefüttert." Der Spiegel 5/1997: 164f.
"Verbmobil - Übersetzung von Spontansprache." Online in Internet: URL: http://www.dfki.uni-sb.de/verbmobil/Vm.Infobrosch.Text.8.3.96.html [Stand: 21.2.97].
Bauer, Ernst W. (21976): Humanbiologie. Berlin.
Becker, Dieter: "Aspekte der Störverminderung in der Spracherkennung." In: Fellbaum (1991): 92-108.
Boden, Margaret A. (1992): Die Flügel des Geistes: Kreativität und künstliche Intelligenz. Übers. Rainer von Savigny. München.
Bower, G. H., Black J. H. and Turner, T. (1979): `Scripts in memory for texts', Cogn. Psych. 11, 177-220. (zit. nach Caron).
Broy, Manfred: "Ingenieurorientierte Informatik und `Künstliche Intelligenz': Konturen eines Selbstverständnisses. Ein Versuch der informationstechnischen Folgeabschätzung der KI-Forschung und -Anwendung." In: Schmidt (1992): 223-235.
Caron, Jean (1992): An introduction to psycholinguistics. Übers. Tim Pownall. Hertfordshire.
Dengel, Andreas (1994): Künstliche Intelligenz: allgemeine Prinzipien und Modelle. Mannheim, Leipzig, Wien, Zürich.
Dreyfus, Hubert L. und Dreyfus, Stuart E. (1987): Künstliche Intelligenz: von den Grenzen der Denkmaschine und dem Wert der Intuition. Übers. Michael Mutz. Reinbek.
Fellbaum, Klaus (1991): Elektronische Spachverarbeitung: Verfahren, Anwendungen, Wirtschaftlichkeit. München.
Fellbaum, Klaus: "Einführung in die elektronische Spachverarbeitung." In: Fellbaum (1991): 15-65.
Gardner, Howard (1985): The mind's new science. USA.
Genesereth, Michael R. und Nilsson, Nils J. (1989): Logische Grundlagen der künstlichen Intelligenz. Braunschweig.
Görz, Günther (Hrsg.) (21995): Einführung in die künstliche Intelligenz. Bonn.
Graubard, Stephen R. (Hrsg.) (1996): Probleme der Künstlichen Intelligenz: eine Grundlagendiskussion. Übers. Rike Felka. Wien.
Grimm, Hannelore und Engelkamp, Johannes (1981): Sprachpsychologie: Handbuch und Lexikon der Psycholinguistik. Berlin.
Groeben Norbert (1982): Leserpsychologie: Textverständnis, Textverständlichkeit. Münster.
Haugeneder, Hans und Trost, Harald: "Beschreibungsformalismen für sprachliches Wissen." In: Görz (1995): 365-407.
Helbig, Hermann (1991): Künstliche Intelligenz und automatische Wissensverarbeitung. Berlin.
Herrmann, Theo (21994): Allgemeine Sprachpsychologie: Grundlagen und Probleme. Weinheim.
Holmes, John N. (1991): Sprachsynthese und Spracherkennung. Übers. Günther Ruske. München.
IBM: "VoiceType Simply Speaking.". Online in Internet: URL: http://www.software.ibm.com/is/voicetype/simply-speaking/d/prodinfo.html [Stand: 7.4.97].
Kinnebrock, Werner (1992): Neuronale Netze: Grundlagen, Anwendungen, Beispiele. München, Wien.
Klawitter, Jörg: "`Künstliche Intelligenz' (KI) - Technologischer Traum und/oder gesamtgesellschaftliches Trauma? Zur Geschichte, Entwicklung, Zukunft und Grenze der `Künstlichen Intellligenz'". In: Schmidt (1992): 9-56.
Krämer, Sybille (Hrsg.) (1994): Geist - Gehirn - künstliche Intelligenz: zeitgenössische Modelle des Denkens. Ringvorlesung an der Freien Universität Berlin. Berlin.
Luger, George F. und Stubblefield, William A. (21993): Artificial intelligence: structures and strategies for complex problem solving. Redwood City.
Lunze, Jan und Schwarz, Wolfgang (1991): Künstliche Intelligenz: Einführung und technische Anwendungen. Berlin.
Mallot, Hanspeter A.: "Neuronale Netze". In: Görz (1995): 813-862.
McCorduck, Pamela: "Künstliche Intelligenz: Ein Aperçu." In: Graubard 65-83.
Müller, B., Reinhardt J., Stricklan, M. T. (21995): Neural networks: an introduction. Berlin, Heidelberg.
Nebendahl, Dieter (Hrsg.) (1987): Expertensysteme: Einführung in Technik und Anwendung. Berlin, München.
Neumerkel, Dietmar: "Klassifikationsverfahren der automatischen Spracherkennung." In: Fellbaum (1991): 66-91.
Opwis, U. (1992): Kognitive Modellierung: Zur Verwendung wissensbasierter Systeme in der psychologischen Theoriebildung. Bern.
Penrose, Roger (1991): Computerdenken: des Kaisers neue Kleider oder Die Debatte um künstliche Intelligenz, Bewußtsein und die Gesetze der Physik. Übers. Michael Springer. Heidelberg.
Pinkal, Manfred: "Semantik." In: Görz (1995): 431-491.
Rathert, Tom : "Hör mal, Rechner! DragonDictate 2.2 gegen IBM VoiceType 3.0." DOS, April 1997: 124-128.
Rich, Elaine (1988): KI - Einführung und Anwendungen. Übers. Jörgen Danielsen und Peter Schönau. Hamburg.
Richter, Michael M. (21992): Prinzipien der künstlichen Intelligenz: Wissensrepräsentation, Inferenz und Expertensysteme. Stuttgart.
Rickheit, Gert und Strohner, Hans (1993): Grundlagen der kognitiven Sprachverarbeitung: Modelle, Methoden, Ergebnisse. Tübingen, Basel.
Rojas, Raúl (1993): Theorie der neuronalen Netze: eine systematische Einführung. Berlin, Heidelberg.
Rose, Frank (1986): Ins Herz des Verstandes. Auf der Suche nach der künstlichen Intelligenz. Reinbeck.
Sagerer, Gerhard (1990): Automatisches Verstehen gesprochener Sprache. Mannheim, Wien, Zürich.
Schäfer, Erich (1994): Grenzen der künstlichen Intelligenz: John R. Searles Philosophie des Geistes. Stuttgart.
Schank, Roger C. mit Childers, Peter G. (1986): Die Zukunft der künstlichen Intelligenz. Chancen und Risiken. Übers. Sascha Mantscheff. Köln.
Schefe, Peter (21991): Künstliche Intelligenz - Überblick und Grundlagen: grundlegende Konzepte und Methoden zur Realisierung von Systemen der künstlichen Intelligenz. Mannheim.
Schmidt, Joachim (Hrsg.) (1992): Denken und denken lassen: künstliche Intelligenz - Möglichkeiten, Folgen, Herausforderungen. Neuwied.
Schnupp, Peter und Leibrandt, Ute (1986): Expertensysteme: nicht nur für Informatiker. Berlin, Heidelberg, New York, Tokyo.
Seraphin, Marco (1994): Neuronale Netze und Fuzzy-Logik: Verknüpfung der Verfahren, Anwendungen, Vor- und Nachteile, Simulationsprogramm. München.
Siekmann, Jörg H.: "Künstliche Intelligenz." In: Krämer (1994): 203-222.
Siekmann, Jörg H.: "Künstliche Intelligenz." In: Schmidt (1992): 57-88.
Stonier Tom (1992): Beyond Information: the natural history of intelligence. Berlin, Heidelberg.
Strube, Gerhard et al.: "Kognition." In: Görz (1995): 299-359.
Tichy, Mathias und Martens, Ekkehard (1986): Computer-Denken. Hannover.
Ullrich, Otto: "Was spricht gegen Plastikhirne? Ursachen und Folgen der Maschinisierung des Lebendigen." In: Schmidt (1992): 167-202.
Weizenbaum, Joseph: "Computer-Märchen." In: Schmidt (1992): 273-278.
Wettler, Manfred (1980): Sprache, Gedächtnis, Verstehen. Berlin, New York.
Zemanek, Heinz (1992): Das geistige Umfeld der Informationstechnik. Berlin, Heidelberg.

[1] Gardner 138ff, Görz 3-5, Klawitter 11-17, Rose 43-45, Schefe 16-30, Nebendahl 15, McCorduck 69-73, Helbig 16-19, Genesereth 7
[2] Rich 1, Schank 40-47, Nebendahl 16, Görz 1f., Klawitter 9-11, 18-20, Rose 61-64, Helbig 11-13, Luger 1f, Schefe 6
[3] Klawitter 20
[4] Kinnebrock 9, Klawitter 20, 23-25, Siekmann 68-74, Görz 1, 10f, Nebendahl 17, 19, Siekmann 203-212, Rich 3, Helbig 13-15, Luger 13-21, Lunze 15f, Zemanek 215f, Schnupp 3
[5] Schnupp 89-100, Görz 5-7, 865, Schefe 32-40, 101-109, Rich 37-39, 79-81, 147, 187-190, 217-220, Luger 353, Dengel 15-22, 26-80, Helbig 37-39, Nebendahl 55, Seraphin 110-114
[6] Genesereth 1f, Klawitter 25, Lunze 15, Görz 4f, Schefe 1, Schank 46-48
[7] Zemanek 227
[8] Broy 223
[9] Penrose 15-26, Dreyfus 81-98, Schefe 1, Gardner 171-177, Rich 3-5, Schäfer 103-129, Siekmann 212-218, Genesereth 10, Rose 205, 168-202, 242f, 146-155, Ullrich 177-185, Broy 232-235, Weizenbaum 273-278, Zemanek 222-229
[10] Caron 11
[11] Caron 11, Wettler 6f.
[12] Fellbaum 17-29
[13] Fellbaum 67f, 103f
[14] Holmes 166
[15] Fellbaum 97-106
[16] Fellbaum 45-52, 69-73, Holmes 140-171
[17] Holmes 173-188, Fellbaum 74-80
[18] Holmes 200f, 181
[19] Holmes 207-213, 219
[20] Kinnebrock 11-15, Seraphin 20-27, Dengel 106-109, Müller 3-12, Holmes 10f, Rojas 10-21, Görz 815-819, Bauer 155
[21] einfaches Beispiel (Teil eines C-Programmes): net=w1*e1+w2*e2+w3*e3; if (net->0) a=1; else a=0;
[22] Rojas 399-425, Müller 135-138, Kinnebrock 129, Seraphin 167-170
[23] Kinnebrock 11
[24] nach Kinnebrock 20
[25] Kinnebrock 39
[26] Kinnebrock 25, 30, 50
[27] Kinnebrock 30f
[28] Fellbaum 82, Kinnebrock 10
[29] Fellbaum 81-84, Kinnebrock 107f
[30] Grimm 152
[31] Caron 32-44, 57, Grimm 149-154, 219, Herrmann 150-158
[32] Fellbaum 57f, Holmes 206f
[33] Görz 365, Dengel 86f
[34] Krämer 204f, Rich 320, Nebendahl 20
[35] Rose 201
[36] Schank 60
[37] Rickheit/Strohner 83
[38] Sagerer 85
[39] Rich 232-236, Dengel 48f, Lunze 106f, Helbig 73-80, Sagerer 85-88, Nebendahl 59-61, Richter 120-123
[40] nach Rich 232
[41] wenn man davon ausgeht, daß im Lexikon keine Eigennamen enthalten sind
[42] Caron 76f.
[43] Caron 80
[44] Caron 72-80, 45, Grimm 84-86, 50, 277f., Wettler 36, 39-44
[45] Luger 364
[46] Schank 159, Rose 139
[47] Opwis 68-71, Görz 436-440, Rich 239-247, 352-355, Schank 115-127, 159, Luger 364-367, Helbig 92-94, Dengel 100-103, Rose 138-141
[48] Wettler 138
[49] Wettler 138
[50] Wettler 140
[51] nach Opwis 188
[52] Rich 252-256, Schank 133-142, Görz 329-331, Opwis 71, 187f, Rose 24, Dengel 104f, Luger 383-386
[53] Groeben 47
[54] Bower, Black and Turner, zit. nach Caron 158
[55] Rickheit/Strohner 236
[56] Rich 359-361, Schank 142-152, Rose 65f
[57] Rathert 124-128, IBM
[58] Dreyfus 105ff, Luger 397f, Rose 125f
[59] Sagerer 2, Luger 188ff
[60] Spiegel, Verbmobil

Letzte Bearbeitung: 19. August 1999
Erstellt und bearbeitet von Dora Warth
Homepage des fb06 * private Seiten * Homepage von Dora Warth