Johannes Gutenberg-Universität Mainz
Fachbereich Angewandte Sprach- und Kulturwissenschaft in Germersheim
Künstliche Intelligenz: Spracherkennung und Sprachverstehen
Referat zum Hauptseminar "Psycholinguistik: Mentale Prozesse in der
Sprachverarbeitung"
SS 1997
Referentin: Dora Warth
Seminarleiter: Univ.-Prof. Dr. Dieter Huber
Die Idee, denkende Maschinen zu konstruieren, kam bereits in der Antike auf.
Nach der Erfindung des Computers um 1945 stand hierfür ein interessantes
Werkzeug zur Verfügung. So wurden bald die ersten Programme geschrieben,
die Schach spielen bzw. logische Theoreme beweisen konnten. Als offizielle
Geburtsstunde des Forschungsgebietes "Künstliche Intelligenz" (KI) gilt
eine Konferenz, die im Sommer 1956 am Dartmouth College in New Hampshire
stattfand. Der Organisator John McCarthy prägte die Bezeichnung "Artificial
Intelligence" als Thema dieser Konferenz. In der Folgezeit wurden verschiedene
Forschungsprojekte in Angriff genommen. Zunächst mußten die
theoretischen Grundlagen erarbeitet werden, bevor Ende der siebziger Jahre
die Entwicklung praktischer Anwendungen beginnen konnte. Inzwischen werden
KI-Produkte kommerziell vertrieben.[1]
Es gibt weder für natürliche noch für künstliche Intelligenz
eine allgemein anerkannte Definition. Geprägt wurde der Begriff der
Intelligenz gegen Ende des 19. Jahrhunderts im Zusammenhang mit der Entwicklung
von Intelligenztests. Bei diesen Tests werden einzelne Faktoren wie
Rechenfähigkeit, räumliches Sehen, Gedächtnis, Induktion,
verbale Fähigkeiten usw. geprüft. Ob dies tatsächlich die
wichtigsten Fähigkeiten zur Anpassung an neue Aufgaben und zur Lösung
von Problemen sind, wie viele Definitionen von Intelligenz nahelegen, spielt
hier keine Rolle. Wichtig ist jedoch, daß für die künstliche
Intelligenz nicht genau dieselben Faktoren ausschlaggebend sein können
wie für die natürliche Intelligenz: Beispielsweise wird ein Computer
nicht allein aufgrund seiner großen Rechenfähigkeit oder hohen
Speicherkapazität als intelligent bezeichnet. Zur künstlichen
Intelligenz zählen nur die kognitiven Fähigkeiten, die man von
einem Computer eigentlich nicht erwarten würde. Dies könnte, muß
aber nicht bedeuten, daß der Bereich der künstlichen Intelligenz
in Zukunft immer enger wird, wenn immer mehr KI-Anwendungen zur
Selbstverständlichkeit werden. Der Sprachgebrauch könnte jedoch
auch auf dem heutigen Stand
stehenbleiben.[2]
Der Ausdruck "Künstliche Intelligenz" wird nicht nur als Bezeichnung
für eine bestimmte Eigenschaft verwendet, sondern ist auch der Name
des entsprechenden Forschungsgebietes. In diesem Sinn ist Künstliche
Intelligenz ein Teilbereich der Informatik, der allerdings einen sehr
interdisziplinären Charakter hat. Es bestehen Überschneidungen
zur Psychologie, Philosophie, Linguistik und zu den Neurowissenschaften.
Die Künstliche Intelligenz gliedert sich ebenfalls in verschiedene
Teildisziplinen. Die wichtigsten Arbeitsgebiete sind: Verarbeitung
natürlicher Sprache, Expertensysteme, Deduktionssysteme (d. h.
automatisches Beweisen, Problemlösen, Programmieren...), Robotik und
Bildverstehen.
Man erkennt, daß "es KI immer mit nichtnumerischen symbolischen Prozessen
zu tun [hat], die komplex, ungenau und mehrdeutig sind und für die es
keine allgemein bekannten algorithmischen Lösungen
gibt."[3] Es handelt sich um Prozesse, die
zwischen den berechenbaren und den chaotischen Prozessen anzusiedeln sind
und bei denen Fehler und unterschiedliche Ergebnisse nie ganz
auszuschließen sind. Außerdem spielt Wissen bei vielen KI-Anwendungen
eine große Rolle. [4]
Aus diesen gemeinsamen Merkmalen ergeben sich drei Hauptprobleme, für
die in der KI Lösungsmöglichkeiten gefunden werden müssen:
Das Wissen muß in geeigneter Form dargestellt werden, aus dem vorhandenen
Wissen sollte neues, bisher noch nicht direkt verfügbares Wissen abgeleitet
werden können und es muß durch ein geeignetes Suchverfahren eine
möglichst gute Lösung für das jeweilige Anwendungsproblem
gefunden werden.
Die Wissensrepräsentation erfolgt auf einer symbolischen Ebene,
die zwischen der Realität bzw. der persönlichen Vorstellung von
der Realität und der konkreten programmiertechnischen Realisierung liegt.
Es gibt verschiedene Formalismen, z. B. semantische Netze, Frames, Scripts,
Produktionsregeln und Logik (klassische Prädikatenlogik, nichtmonotone
Logik (d. h., Inhalte der Wissensbasis können wieder gelöscht
werden), Fuzzy Logik (d. h. es gibt neben "wahr" und "falsch" auch
Zwischenstufen)).
Das zweite Problem in der KI, die Erschließung neuen Wissens
("Inferenz"), wird gelöst durch Deduktion (Schluß vom Allgemeinen
auf das Besondere, z. B. "Menschen sind sterblich. Sokrates ist ein
Mensch. Sokrates ist sterblich."), Induktion (Schluß vom Besonderen
auf das Allgemeine, z. B. "Sokrates ist sterblich. Sokrates ist ein
Mensch. Menschen sind sterblich."), Abduktion (Rückschluß, z. B.
"Menschen sind sterblich. Sokrates ist sterblich. Sokrates ist ein Mensch.")
und Analogie (Schluß von einem Sonderfall auf einen anderen aufgrund
von Ähnlichkeit, z. B. "Sokrates ist sterblich. Aristoteles ist
sterblich.").
Die Suchverfahren der KI sind dadurch gekennzeichnet, daß nicht
alle Lösungsmöglichkeiten getestet werden; denn KI-Probleme sind
in der Regel so komplex, daß dies zu lange dauern würde
("kombinatorische Explosion"). Daher werden die verschiedenen
Lösungsansätze schon während der Suche bewertet, so daß
aussichtslos erscheinende Ansätze aufgegeben werden können. Mit
derartigen ("heuristischen") Suchverfahren wird relativ schnell eine gute,
aber nicht in jedem Fall die beste Lösung gefunden.
Repräsentations-, Inferenz- und Suchverfahren müssen schließlich
noch in eine computerverständliche Form gebracht werden ("Implementierung").
Die beiden Programmiersprachen, die hierzu am häufigsten verwendet werden,
sind Prolog und LISP.
Eine Alternative zu den bisher vorgestellten Methoden des symbolischen Ansatzes
bilden die künstlichen neuronalen Netze. Bei diesem ("konnektionistischen")
Ansatz wird versucht, die Arbeitsweise des menschlichen Gehirns mit
mathematischen Methoden nachzuahmen
(s. u.).[5]
Unabhängig von den Methoden gibt es in der KI zwei verschiedene
Zielsetzungen: Im kognitionswissenschaftlichen, theorieorientierten Zweig
geht es darum, Theorien über die menschliche Informationsverarbeitung
zu überprüfen. Ziel ist also, das Denken besser zu verstehen.
Im ingenieurwissenschaftlichen, produktorientierten Zweig wird dagegen versucht,
intelligente Programme zu entwickeln, die für die Praxis nützlich
sind. Ziel ist also die Befriedigung von Bedürfnissen der Industrie
oder der Gesellschaft.[6]
Im Zusammenhang mit der Künstlichen Intelligenz stellt sich natürlich
auch die Frage, ob es eines Tages möglich sein wird, ein System zu
entwickeln, das in jeder Hinsicht intelligent ist und über menschliches
Allgemeinwissen verfügt. Diese Vorstellung hat zu einer intensiven
philosophischen Diskussion geführt. Im Mittelpunkt steht dabei die
physical symbol hypothesis. Diese Hypothese besagt, daß jedes
symbolverarbeitende System intelligent werden kann. Es kommt nur auf die
richtigen Algorithmen an, das Material (die Hardware) ist irrelevant. Gehirn
und Computer sind also nur verschiedene Arten von symbolverarbeitenden Systemen.
Diese Vorstellung ergibt sich aus einem naturwissenschaftlichen Weltbild,
nach dem alles berechenbar und erklärbar ist. Gegner der Hypothese wenden
ein:
"Ich bin kein Automat [...]. Ich werde nicht von einem Superprogramm gesteuert, das mir bloß vorgaukelt, ich hätte einen freien Willen. Innerhalb der Grenzen, die ich gut verstehe und häufig abschätze, habe ich einen freien Willen. Ich spüre ihn. [...] Erst mit meinem freien Willen, mit der Kette echter persönlicher Entscheidungen, bekommt meine Existenz einen Sinn."[7]
Gegen diese Argumente wird eingewendet, daß es in der Naturwissenschaft
schon andere ernüchternde Entdeckungen gegen hat, die der Intuition
widersprechen (z. B. die Tatsache, daß die Erde um die Sonne
kreist).
Aus der physical symbol hypothesis folgt nicht automatisch, daß
allgemein intelligente Maschinen konstruiert werden können: Dies ist
möglicherweise zu kompliziert und zu aufwendig (Position von Winograd).
Außerdem wäre es nicht unbedingt sinnvoll: "Wer käme auf
die Idee, ein künstliches Pferd für die Fortbewegung des Menschen
zu konstruieren? Technische Entwicklungen brauchen ihre ganz eigenen
charakteristischen Ausprägungen."[8].
Es wäre sogar gefährlich (Position von Weizenbaum): Intelligente
Maschinen könnten sich gegen den Menschen wenden oder mißbraucht
werden, beispielsweise vom Militär, einem der wichtigsten Sponsoren.
Aus der Ablehnung der physical symbol hypothesis ergibt sich andererseits
ebenfalls nicht automatisch die Schlußfolgerung, daß allgemein
intelligente Maschinen nicht konstruiert werden können. Denn
künstliche Intelligenz muß nicht unbedingt auf demselben Weg erreicht
werden wie natürliche. Es ist nicht ausgeschlossen, daß ein Computer
mit Regeln und Merkmalen theoretisch dieselben Leistungen erbringen könnte
wie ein ganz anders arbeitendes Gehirn. Doch dies ist keineswegs Stand der
Technik oder Stand der Kunst.[9]
Die Sprache ist einer der grundlegendsten und komplexesten Bestandteile der
menschlichen Intelligenz. Daher ist die maschinelle Verarbeitung
natürlicher Sprache ein wichtiger, aber schwieriger Teilbereich der
KI. Es ergeben sich interessante Anwendungen, z. B.
natürlichsprachliche Schnittstellen zu Datenbanken oder Expertensystemen,
Bedienung technischer Geräte, Auskunftssysteme, Textzusammenfassung,
maschinelle Übersetzung...
Doch auch die theoretische Seite der maschinellen Sprachverarbeitung ist
von Interesse, und zwar unter anderem für die Psycholinguistik, die
sich mit der menschlichen Sprachverarbeitung beschäftigt. Das folgende
Zitat aus einem psycholinguistischen Lehrbuch zeigt die Bedeutung der
Künstlichen Intelligenz für die Psycholinguistik:
...this research [into the automatic processing of language in artificial intelligence], while not necessarily providing plausible psychological models, has at least provided the psychologist with interesting suggestions and the example of rigorously defined theories. The exchange of ideas between artificial intelligence and cognitive psychology - within the framework of a `cognitive science' which has been developing for a number of years - is certain to play an important role in the development of psycholinguistics, and of psychology in general.[10]
Psycholinguisten können von der Künstlichen Intelligenz jedoch
nicht nur Anregungen für die eigene Forschung gewinnen, sondern mit
der Computersimulation steht auch eine neue Methode zur Verfügung, um
psycholinguistische Theorien zu überprüfen. Vorteil dieser Methode
ist, daß auch komplexe Theorien nachvollzogen werden können, die
sonst nicht überschaubar wären. Außerdem zwingt die
Computersimulation dazu, die aufgestellten Theorien sehr detailliert
auszuarbeiten und implizite Annahmen zu
explizieren.[11]
In der maschinellen Sprachverarbeitung müssen verschiedene Teilprobleme
gelöst werden, die sich einteilen lassen in Spracherkennung (Umwandlung
in ASCII-Code), Sprachverstehen (Umwandlung in eine interne
Repräsentation), Sprachgenerierung (Umwandlung einer internen
Repräsentation in natürliche Sprache) und Sprachsynthese (maschinelles
"Aussprechen").
In dieser Arbeit werden nur die Aspekte "Spracherkennung" und
"Sprachverstehen" berücksichtigt.
Unter Spracherkennung (engl. speech recognition) versteht man das
Erkennen gesprochener Sprache. Das maschinelle Erkennen geschriebener Sprache
wird als OCR (optical character recognition) bezeichnet. Dabei wird
ein eingescannter Text in maschinenlesbare Form gebracht, indem Gruppen
zusammenhängender Bildpunkte mit gespeicherten Mustern von Buchstaben,
Zahlen und Sonderzeichen verglichen werden.
Bei der Spracherkennung wird gesprochene Sprache mit einem Mikrophon aufgenommen.
In einem ersten Schritt wird das (zunächst analoge) Sprachsignal
digitalisiert, d. h. in eine Folge von binären Zahlen umgewandelt;
denn nur in dieser Form kann es von einem Computer weiterverarbeitet
werden.[12]
Der zweite Schritt ist die Merkmalsextraktion. Sie dient dazu, die Datenmenge
zu reduzieren. Das Sprachsignal wird durch drei Größen bestimmt:
Zeit, Frequenz und Intensität (Lautstärke). Man kann es als
Fläche im dreidimensionalen Koordinatensystem darstellen. Bei der
Merkmalsextraktion werden bestimmte Punkte aus dieser Fläche
ausgewählt. Dazu wird das Sprachsignal in kurze Zeitabschnitte
(Frames) eingeteilt. In jedem Zeitabschnitt wird für ca. 20
sprachrelevante Frequenzen die Intensität ermittelt. Diese Werte werden
für jeden Zeitabschnitt in einem Merkmalsvektor
dargestellt.[13]
Im dritten Schritt erfolgt die Klassifikation, d. h. es wird ermittelt,
welchen Phonemen oder Wörtern das Sprachsignal entspricht. Hierzu gibt
es verschiedene Verfahren:
Bei dieser Methode werden dem System in einer Trainingsphase alle Wörter
vorgesprochen, die es später erkennen soll. Beim Erkennungsvorgang
vergleicht dann das System die Äußerungen des Benutzers mit den
gespeicherten Mustern der Sprechproben. Da ein Wort nie zweimal genau gleich
ausgesprochen wird, stimmt das zu erkennende Wort nie genau mit dem gespeicherten
Muster überein. Es muß daher ein Maß für die
Ähnlichkeit festgelegt werden (z. B. die Euklidische Distanz der
einzelnen Merkmale).
Folgende Probleme treten bei der Spracherkennung auf:
Die Leistungsfähigkeit von Spracherkennungssystemen kann verbessert
werden, wenn berücksichtigt wird, daß nicht alle Merkmale gleich
wichtig sind. Es ist z. B. unwahrscheinlich, daß ein zu erkennendes
Wort einem bestimmten Muster entspricht, wenn ihm ein sehr charakteristisches
Merkmal fehlt. Nun gibt es einen Algorithmus, nach dem berechnet werden kann,
wie wahrscheinlich es ist, daß eine bestimmte Folge von Merkmalsvektoren
(Beobachtungsfolge) durch ein bestimmtes Wort (Modell) erzeugt wurde. Diese
Wahrscheinlichkeit wird für alle Wörter berechnet. Das Wort mit
der größten Wahrscheinlichkeit gilt als erkannt. Die Berechnung
beruht darauf, daß jedes Wort in mehrere Zustände eingeteilt wird.
Ein Zustand ist die Äußerung innerhalb eines kurzen Zeitabschnitts.
Als Eingabe-Parameter des Algorithmus dienen: die Wahrscheinlichkeit, daß
ein bestimmter Zustand zu einer bestimmten Beobachtung (hier: zu einem bestimmten
Merkmalsvektor) führt und die Übergangswahrscheinlichkeit von einem
Zustand zu einem anderen. Diese Parameter werden zunächst geschätzt
und dann schrittweise verbessert, indem neue Beobachtungen mit den alten
Schätzwerten verrechnet werden
(Baum-Welch-Algorithmus).[17]
Wenn nicht nur einzelne Wörter, sondern ganze Sätze erkannt werden
sollen, kann das Verfahren der Hidden-Markov-Modelle auf mehreren Ebenen
angewendet werden: Auf der untersten Ebene werden Allophone in Zustände
eingeteilt; die Allophone sind dann Zustände von Wörtern; die
Wörter sind Zustände von Wortketten oder syntaktischen bzw.
semantischen Einheiten; diese Einheiten sind Zustände von Sätzen...
Zur Vereinfachung wird hier nach einem anderen Algorithmus (Viterbi) nur
die jeweils wahrscheinlichste Zustandsfolge berechnet (statt der Summe der
Wahrscheinlichkeiten aller
Zustandsfolgen).[18]
Bei dieser Methode wird versucht, die einzelnen Phoneme direkt anhand ihrer
akustischen Eigenschaften zu identifizieren. Es ist beispielsweise bekannt,
daß ein /s/ länger als 50 ms dauert und hauptsächlich Frequenzen
über 44 kHz aufweist. Solche Kenntnisse werden in Regeln umgesetzt oder
für statistische Klassifikationsverfahren
genutzt.[19]
Zur Spracherkennung werden auch Künstliche Neuronale Netze verwendet.
Bei dieser KI-Methode wird versucht, die Arbeitsweise des Gehirns zu simulieren.
Die Verarbeitungseinheiten des Gehirns sind die Neuronen. Diese ca.
1010 Nervenzellen empfangen elektrochemische Impulse und geben
unter bestimmten Umständen Impulse an andere, mit ihnen verbundene Neuronen
weiter. Die Ausgabe erfolgt über einen langen verzweigten Faserfortsatz,
das Axon, die Eingabe über kürzere Eingangsfasern, die Dendriten.
Ein Neuron hat durchschnittlich 10 000 Dendriten. Es empfängt daher
meist mehrere Impulse zu etwa derselben Zeit. Diese Impulse addieren sich
zu einem Gesamtimpuls. Wenn der Gesamtimpuls einen bestimmten Schwellenwert
übersteigt, gibt das Neuron einen Impuls ab, es "feuert". Der Impuls
ist bei der Abgabe immer etwa gleich groß. An den Kontaktstellen zu
anderen Neuronen, den Synapsen, wird er jedoch verstärkt oder gehemmt.
Die Wirkung der Synapsen auf die Impulse kann durch Lernen verändert
werden.[20]
Für diese Tatsachen wird nun ein mathematisches Modell formuliert: Da
abgegebene Impulse immer gleich groß sind, genügen zwei Zahlen,
um die Ausgabe (a) eines Neurons zu beschreiben, z. B. 1 (Impuls)
und 0 (kein Impuls). Die Tatsache, daß die Impulse an den Synapsen
gehemmt oder verstärkt werden, wird durch Multiplikation mit positiven
oder negativen Zahlen simuliert. Diese Zahlen werden als Gewichte (w)
bezeichnet. Ein Neuron kann mehrere Eingänge haben und feuert dann,
wenn der Gesamtimpuls einen Schwellenwert übersteigt. Die Werte der
Impulse an den verschiedenen Eingängen (e) werden also addiert.
Von der Summe wird der Schwellenwert ([theta]) abgezogen. Ist das
Ergebnis größer als 0, so wird das Ergebnis einer Transferfunktion
auf 1 gesetzt - das Neuron feuert. Ist das Ergebnis kleiner als 0, so ist
f(x)=0 - das Neuron feuert nicht.
Das hier dargestellte mathematische Modell für ein Neuron kann in
verschiedenen Programmiersprachen auf einem gewöhnlichen seriellen
von-Neumann-Computer implementiert
werden.[21]
Natürlich werden in der Praxis stets mehrere Neuronen miteinander vernetzt.
Mathematisch bedeutet dies, daß mit Vektoren und Matrizen gerechnet
wird. Für die Implementierung solcher neuronaler Netze gilt, daß
serielle Computer mit einem einzigen Prozessor nur für einfache Anwendungen
geeignet sind; denn es ist sehr zeitaufwendig, die Werte aller Neuronen
nacheinander zu berechnen. Daher bieten sich spezielle Hardware-Realisierungen
an, die eine Parallelverarbeitung ermöglichen (Multiprozessorsysteme,
spezielle Neuro-Chips, analoge Bauelemente, optische
Computer[22]). Dies kommt auch der Arbeitsweise
des Gehirns näher, das man als "gigantisches
Parallelverarbeitungssystem"[23] ansehen
kann.
Man unterscheidet verschiedene Arten von neuronalen Netzen:
- einstufige Netze haben nur zwei Neuronen-Schichten, während bei
mehrstufigen Netzen mindestens eine versteckte Schicht (hidden
layer) zwischen Ein- und Ausgabeschicht liegt.
Abbildung 1: einstufiges
Netz[24] |
Abbildung 2: zweistufiges Multi-Layer-Perzeptron
[25] |
- bei Feed-Forward-Netzen kommt es nur auf die Ausgabe eines einzelnen
Netzdurchlaufs an; bei Netzen mit Rückkopplung werden die Ausgabewerte
eines Durchlaufs so lange zu den Eingabewerten eines neuen Durchlaufs, bis
sich die Werte nicht mehr ändern.[26]
Die korrekten Gewichte eines neuronalen Netzes sind in der Regel nicht von
vornherein bekannt. Sie müssen in einer rechenintensiven Trainingsphase
bestimmt werden. Es gibt verschiedene Lernverfahren. Ein Beispiel ist das
"Supervised Learning". Es setzt voraus, daß der gewünschte Output
bereits bekannt ist. Für die Gewichte werden zunächst Zufallszahlen
eingesetzt. Dann wird mit diesen Gewichten für irgendeine Eingabe der
Output berechnet. Dieser Output wird mit dem gewünschten Output verglichen.
Wenn keine Übereinstimmung besteht, werden die Gewichte nach einer
Korrekturformel verbessert. Die verbesserten Gewichte werden mit einer neuen
Eingabe getestet.[27] Nach einem ausreichenden
Training arbeitet das Netz (im Idealfall) nicht nur für den
Trainingsdatensatz, sondern für alle Eingaben korrekt. Es hat also die
Fähigkeit, ausgehend von den Trainingsbeispielen zu
"generalisieren".[28]
Für die Spracherkennung werden häufig mehrstufige Feed-Forward-Netze
eingesetzt, z. B. das Multi-Layer-Perceptron (siehe
Abbildung 2). Da der gewünschte Output bekannt
ist, bietet sich das Lernverfahren des Supervised Learning an (genauer:
Backpropagation). Als Eingabe dienen die Merkmale des Sprachsignals. Die
Anzahl der Merkmale, die dem Netz in einem Durchgang angeboten werden, muß
konstant sein. Sie entspricht der Anzahl der Eingangsneuronen. Die Anzahl
der Ausgangsneuronen hängt davon ab, wieviele Wörter (oder andere
Einheiten) erkannt werden sollen. Jedes Ausgabeneuron steht für ein
Wort. Als erkannt gilt das Wort, dessen Neuron den Wert 1
ausgibt.[29]
Es ist schwierig zu sagen, welches der vorgestellten Klassifikationsverfahren
den Vorgängen im menschlichen Gehirn am ehesten entspricht, da es
verschiedene Theorien zur Sprachwahrnehmung gibt.
Zunächst stellt sich die Frage, welches die grundlegenden
Wahrnehmungseinheiten sind: Phoneme, Wörter oder sonstige Einheiten
wie z . B. Silben. Gegen Wörter als kleinste relevante Einheiten
spricht, daß Menschen auch unbekannte Wörter und Neologismen korrekt
erkennen können. Es ist ebenfalls unwahrscheinlich, daß die
Sprachwahrnehmung ausschließlich auf Phonemen beruht, da keine
1:1-Übereinstimmung zwischen akustischen Sprachsignalen und erkannten
Phonemen besteht: Je nach Kontext wird dasselbe Sprachsignal unterschiedlich
interpretiert (z. B. wird eine Frequenz von 1440 Hz vor (i) als
(p) und vor (a) als (k) wahrgenommen[30]).
Außerdem werden oft auch solche Phoneme spontan richtig erkannt, die
z. B. wegen eines Störgeräusches gar nicht hörbar waren,
die sich aber aus dem vorausgehenden Kontext ergeben. Dies deutet darauf
hin, daß bei der Sprachwahrnehmung nicht isolierte Phoneme
aneinandergereiht werden, sondern daß von Anfang an auch höhere
Verarbeitungsstufen beteiligt sind (Worterkennung, syntaktische Analyse,
semantische Analyse), die parallel ablaufen und deren Ergebnisse
berücksichtigt werden können. Bei der Sprachwahrnehmung sind also
bottom-up- und top-down-Prozesse kombiniert.
Für die maschinelle Spracherkennung ergibt sich somit: Bezüglich
der Wahrnehmungseinheiten kommen diejenigen Systeme den menschlichen Prozessen
am nächsten, die auf mehreren Ebenen arbeiten und sich nicht z. B.
auf einen Mustervergleich ganzer Wörter oder die Erkennung anhand
akustischer Merkmale von Phonemen beschränken.
Eine Hilfe bei der Spracherkennung ist vermutlich auch das Wissen der Menschen
über die Häufigkeit bzw. Auftretenswahrscheinlichkeit von
Wörtern, Phonemen und anderen Einheiten sowie über das mögliche
und wahrscheinliche Aufeinanderfolgen dieser Einheiten bzw. die
Übergangswahrscheinlichkeiten. Diese beiden Wahrscheinlichkeiten werden
in der Psycholinguistik im Rahmen des informationstheoretischen Ansatzes
untersucht. Bei der Spracherkennung werden sie für das Rechnen mit
Hidden-Markov-Modellen benötigt. Allerdings sind sie bei der
Sprachwahrnehmung wahrscheinlich nur ein Hilfsmittel, während bei den
Hidden-Markov-Modellen die gesamte Zuordnung auf diesen Wahrscheinlichkeiten
beruht.
In der Psycholinguistik gibt es verschiedene Theorien darüber, wie die
erkannten Phoneme, Wörter usw. dem Sprachsignal zugeordnet werden.
Ältere Ansätze gingen von einem "Schablonenvergleich" (engl.
template matching) oder von einer Analyse nach distinktiven Merkmalen
(z. B. Stimmhaftigkeit, Nasalität, Dauer) aus. Ersterem entspricht
in der Spracherkennung ungefähr der "Mustervergleich ganzer Wörter",
letzterem die "Erkennung anhand akustischer Merkmale von Phonemen". Nach
einer anderen Theorie, dem Analyse-durch-Synthese-Modell, analysieren Menschen
ein Sprachsignal, indem sie intern so lange stumme Lautfolgen erzeugen, bis
eine dieser Lautfolgen mit dem wahrgenommenen Sprachsignal übereinstimmt.
Die "Motor-Theorie der Sprachwahrnehmung" geht näher darauf ein, wie
diese internen Lautfolgen erzeugt werden: Man versucht, durch eigene
sprechmotorische Tätigkeit die Artikulationsbewegungen des Sprechers
nachzuvollziehen.
Die neueren konnektionistischen Modelle beruhen auf dem Gedanken, daß
die Sprachwahrnehmung parallel auf verschiedenen Ebenen abläuft, die
miteinander vernetzt sind und zwischen denen eine Interaktion stattfindet.
Wenn ein Knoten aktiviert wird, aktiviert er bestimmte Knoten der
nächtshöheren und nächsttieferen Ebene und hemmt die anderen
Knoten der eigenen Ebene. Das Element eines Knotens (z. B. Phonem, Wort)
gilt dann als erkannt, wenn die Aktivationshöhe des Knotens einen
Schwellenwert überschreitet. Interessant ist, daß der Schwellenwert
auch dann überschritten werden kann, wenn noch nicht alle zugehörigen
Knoten der tieferen Ebenen aktiviert sind. Ein Wort kann also z. B.
erkannt werden, bevor alle Phoneme ausgesprochen wurden.
Den konnektionistischen Modellen der Sprachwahrnehmung entsprechen in der
maschinellen Spracherkennung die Künstlichen Neuronalen
Netze.[31]
Die Spracherkennung kann zwei unterschiedlichen Zwecken dienen: Bei der
Sprachtranskription geht es nur darum, eine schriftliche Version des gesprochenen
Textes zu erhalten - die Bedeutung ist irrelevant. Bei anderen Anwendungen
soll das System auf den Inhalt der Äußerung reagieren, z. B.
indem es eine Frage beantwortet. Hierzu ist Sprachverstehen
nötig.[32] Dies ist vor allem deshalb
schwierig, weil natürliche Sprache oft mehrdeutig ist und weil Menschen
nicht immer alle Tatsachen und Zusammenhänge ausdrücklich
erwähnen. Um Mehrdeutigkeiten auflösen und "mitgedachte" Tatsachen
ergänzen (inferieren) zu können, benötigt der Rezipient Welt-
oder Situationswissen. Einem Sprachverstehenssystem muß daher nicht
nur sprachliches, sondern auch außersprachliches Wissen zur Verfügung
gestellt werden. Dies ist sehr aufwendig, da auch Details berücksichtigt
werden müssen, die für Menschen selbstverständlich
sind.[33]
Ein Computerprogramm soll Sprache in dem Sinn verstehen, daß es eine
Äußerung in eine interne Repräsentation umsetzt, d. h.
in eine Darstellung, die es weiterverarbeiten kann und die ihm eine angemessene
Reaktion ermöglicht.[34] Es wird
darüber diskutiert, ob es sich hier um wirkliches Verstehen handelt
oder ob das Wort "verstehen" im übertragenen Sinn gebraucht wird und
das Verstehen nur simuliert ist. Für letzteres spricht, daß der
Computer nicht bewußt versteht und das Verstehen nicht
erlebt.[35] Außerdem kann er Aussagen
über Liebe, Müdigkeit, Schmerz usw. nicht im Sinn einer "völligen
Einfühlung"[36] verstehen. Gegen dieses
Argument wird eingewendet, daß es verschiedene Ebenen des Verstehens
gibt und der Computer die Aussagen auf niedrigerer Ebene versteht. Für
die Auffassung, daß man auch das Verstehen durch einen Computer als
wirkliches Verstehen betrachten kann, spricht vor allem die Tatsache, daß
nach verschiedenen Theorien das menschliche Verstehen ebenfalls als Umsetzung
in eine interne Repräsentation definiert wird. Beispielsweise geht
Johnson-Laird in seiner Theorie mentaler Modelle davon aus, daß ein
menschlicher Rezipient einen Text zunächst in Propositionen
(Prädikat-Argument-Strukturen) umwandelt. Auf der Grundlage dieser
propositionalen Repräsentation baut er anschließend mentale Modelle
(etwa: innere Bilder oder Filme) auf.[37]
Menschen und Computer verwenden zwar nicht dieselbe Art der Repräsentation,
in beiden Fällen handelt es sich jedoch um eine Umsetzung, die eine
sinnvolle Weiterverarbeitung ermöglicht.
In den folgenden Abschnitten werden zunächst zwei Beispiele für
Repräsentationsformalismen vorgestellt. Anschließend werden zwei
Arten von Wissensstrukturen erläutert, die im System gespeichert werden
können und die das Verstehen neuer Informationen erleichtern sollen.
Die semantischen Netze gehören zu den "am weitesten verbreiteten Schemata
zur expliziten Repräsentation von Wissen in sprachverstehenden
Systemen".[38] Sie bestehen aus einer Menge
von Knoten, die durch gerichtete und beschriftete Kanten miteinander verbunden
sind. Die Knoten repräsentieren begriffliche Einheiten wie Objekte,
Vorgänge, Zustände, Orte, Zeitabschnitte, Eigenschaften, Zahlen
usw. Die Kanten bringen die Beziehungen zwischen diesen Einheiten zum Audruck.
Es gibt verschiedene Arten von Beziehungen:
Semantische Netze werden in Form eines Graphen dargestellt:[39]
Abbildung 3: semantisches Netz [40]
Semantische Netze stehen in zweierlei Bezug zur Psycholinguistik:
- Erstens beruhen die Netzwerkmodelle zur Repräsentation der Wortbedeutung
im mentalen Lexikon auf semantischen Netzen. Bei den Netzwerkmodellen spielt
allerdings im Unterschied zu den semantischen Netzen die Relation "instance_of"
keine Rolle[41], da nur Wortbedeutungen
beschrieben werden sollen, nicht aber das Wissen über konkrete reale
Objekte.
Das mentale Lexikon ist ein Wortverzeichnis im Langzeitgedächtnis, in
dem neben den semantischen Informationen, auf die sich die Netzwerkmodelle
beziehen, auch phonologische, graphematische, morphologische, syntaktische
und pragmatische Informationen enthalten sind.
Die wichtigste Alternative zu den Netzwerkmodellen sind die Merkmalsmodelle.
Während es bei den Netzwerkmodellen auf die Verbindungen zwischen den
Wörtern ankommt, wird bei den Merkmalsmodellen die Bedeutung anhand
semantischer Merkmale unterschieden (z. B. ± belebt,
± menschlich, ± erwachsen...).
- Zweitens wurden die semantischen Netze als Modell der Repräsentation
von Wissen jeder Art im Langzeitgedächtnis aus der Künstlichen
Intelligenz in die Psycholinguistik übernommen, allerdings nicht
vorbehaltlos:
They [semantic networks] are concerned with the representation of knowledge, and their relation to psycholinguistics is sometimes tenuous - apart from the fact that the knowledge in question is generally learned (and can be formulated) in verbal form. While these models provide only a limited explanation of the actual processes of language comprehension, they are particularly concerned with representing what form the results of these processes take in memory. For this reason, therefore, the psycholinguist cannot neglect them.[42] [...]
We must also point out that, in fact, these diverse semantic network models are derived more from the field of artificial intelligence than from psychology. No doubt they all aim to have a psychological validity - or at least plausibility. However, it is difficult to assess the extent to which they are based on well-established experimental data, intuitive consideration, programming constraints, or simply personal preference.[43] [44]
Die Conceptual-Dependency-Theorie wurde zu Beginn der 70er Jahre von Roger
Schank in Yale entwickelt. Sie beruht auf dem Konzept des semantischen Netzes;
es bestehen allerdings u. a. folgende Unterschiede:
- Es gibt verschiedene Arten von Kanten, die bestimmten Beziehungen
(dependencies) entsprechen, z. B.
Abbildung 4: Beispiele für dependencies
- Die Tätigkeiten werden nicht mit Verben der natürlichen Sprache
ausgedrückt, sondern alle Tätigkeiten werden auf ungefähr
11 primitive Aktionen zurückgeführt, z. B.
...
ATRANS - transfer a relationship (give)
PTRANS - transfer physical location of an object (go)
PROPEL - apply physical force to an object (push)
...
MTRANS - transfer mental information (tell)
MBUILD - mentally make new information (decide)
...
ATTEND - focus sense organ (listen)[45]
Jede dieser primitiven Aktionen ist mit bestimmten Slots (Leerstellen)
verknüpft, z. B. ACTOR, FROM, TO. Bei der Analyse wird versucht,
diese Slots zu füllen.
Ein Grundgedanke der Conceptual Dependency Theory ist, daß Sätze
mit gleicher Bedeutung auf gleiche Weise dargestellt werden, z. B.
Abbildung 5: Conceptual Dependency Repräsentation
| = | 1. Patrick gibt John eine Zeitung. 2. Patrick überreicht John eine Zeitung. 3. John erhält eine Zeitung von Patrick. 4. John kriegt eine Zeitung von Patrick. 5. Patrick gives a newspaper to John. 6. Patrick donne un journal à John. |
Auf diese Weise wird das Ziehen von Schlußfolgerungen erleichtert:
Die Inferenzregeln werden mit den primitiven Aktionen verknüpft und
müssen nicht für jeden Einzelfall formuliert werden. Beispielsweise
gilt für jede Art von Informationstransfer, daß die Informationen
zum Ziel gelangen und gleichzeitig bei der Quelle bleiben. Außerdem
sind viele Schlußfolgerungen direkt in der Darstellung enthalten (vgl.
im Beispiel Satz 2 und 3).
Ein weiterer Vorteil der primitiven Aktionen ist ihre Sprachunabhängigkeit.
Ausgehend von einer internen Repräsentation können daher Sätze
in verschiedenen Sprachen generiert werden (vgl. im Beispiel Satz 5 und 6).
Anscheinend ist mit Conceptual Dependency das Übersetzen nicht wesentlich
komplizierter als das Paraphrasieren des
Ausgangstextes[46].
Ein positiver Aspekt ist auch die Verminderung von Mehrdeutigkeiten: Es ist
immer die Lesart die wahrscheinlichste, nach der die Slots am besten
gefüllt werden können.
Allerdings hat die Conceptual Dependency Theory auch zahlreiche Nachteile.
Vor allem ist hier der hohe Aufwand zu nennen. Ein einfacher Satz wie "Jim
erschoß John" muß zerlegt werden in "Die Gesundheit von John
beträgt in der Vergangenheit -10 auf einer Skala von -10 bis +10, weil
Jim eine Kugel, die sich in einem Gewehr befand, mit einem Impuls in Richtung
auf John versehen hat."
Außerdem gehen viele Nuancen der natürlichen Sprache verloren.
Zwischen Wörtern wie "überreichen" und "geben" oder "erhalten",
"bekommen" und "kriegen" bestehen durchaus feine Unterschiede.
Weitere Kritikpunkte sind: Vernachlässigung der Syntax, Wilkür,
keine theoretische Begründung, keine Kontrollierbarkeit des Ergebnisses,
Unvollständigkeit, Vagheit, keine intuitive
Durchschaubarkeit...[47]
Aus psychologischer Sicht stellt sich die Frage, ob Sätze tatsächlich
in Form von Conceptual Dependency Strukturen im Langzeitgedächtnis
gespeichert werden. Dagegen spricht, daß man sich dies nur schwer
vorstellen kann, da uns die Conceptual Dependency Repräsentation oft
sehr fremd vorkommt. Denken wir beim Satz "Jim erschoß John" wirklich
an den Impuls der Gewehrkugel? Empfinden wir "erröten" tatsächlich
als Zustandsänderung und "schwitzen" als
Handlung?[48] Ist das Wirken der Schwerkraft
allen Menschen so bewußt, daß sie den Satz "Das Buch fiel vom
Tisch auf den Boden" umwandeln in "Die Schwerkraft beförderte das Buch
vom Tisch auf den Boden"?[49]
Ein weiteres Gegenargument ist, daß wir zumindest in manchen Fällen
und zumindest teilweise auch syntaktische Informationen speichern. Wenn dies
nicht so wäre, könnten beispielsweise Versuchspersonen in
Wiedererkennungsexperimenten nicht unterscheiden, ob ihnen der Satz "Hans
erwürgte Fritz" oder "Hans bewegte seine Hände zum Hals von Fritz
und drückte zu, was zur Folge hatte, daß Fritz nicht mehr atmen
konnte, was zur Folge hatte, daß Fritz
starb"[50] vorgelegt wurde. Die Speicherung
syntaktischer Informationen wird jedoch in der Conceptual Dependency Theory
nicht berücksichtigt.
Textproduzenten erwähnen in der Regel nicht alle Einzelheiten
ausdrücklich, sondern erwarten von den Rezipienten, daß sie fehlende
Details aus ihrem Vorwissen ergänzen. Daher ist es sinnvoll, ein
Computerprogramm, das natürliche Sprache verstehen soll, mit solchem
Vorwissen auszustatten. Eine Art des Wissens sind Kenntnisse über stereotype
Ereignisfolgen wie Restaurantbesuche, wissenschaftliche Vorträge, Konzerte,
Zahnarztbesuche... Wissensstrukturen, die solche Ereignisfolgen beschreiben,
werden von Schank und Abelson als Scripts bezeichnet.
Das bekannteste Beispiel ist das Restaurant-Script. Es beschreibt, wie ein
Restaurantbesuch normalerweise abläuft (hier stark vereinfacht):
Die beiden wichtigsten Funktionen eines Scripts sind:
Auf diese Weise kann z. B. folgende Geschichte verstanden werden: "William
ging in ein Restaurant. [wichtigste Ergänzung: Er setzte sich an einen
Tisch.] Er bestellte einen Salat. [wichtigste Ergänzung: Er aß.]
Als ihm die Bedienung die Rechnung brachte, bemerkte er, daß er nicht
genügend Geld hatte, um sein Essen zu bezahlen. [Abweichung vom Script]
Er hinterließ daher seine Adresse, bevor er das Restaurant
verließ."[52]
Scripts spielen auch in der Psycholinguistik eine Rolle. Sie sind mit den
Schemata verwandt bzw. können sogar als Sonderfall der Schemata betrachtet
werden. Schemata sind "abstrakte Repräsentation[en] von bedeutsamen
Zusammenhängen in einem bestimmten Realitätsbereich [...], die
aufgrund von Erfahrungen als typisch angesehen werden; dabei kann es sich
um die konzeptuelle Abbildung von Gegenständen, Zuständen, Ereignissen
oder Handlungen handeln."[53] Nach der
Schematheorie werden im Gedächtnis gespeicherte Schemata bei der
Textrezeption aktiviert und führen zu Erwartungen. Das aktivierte Vorwissen
wird dann vom Rezipienten neben den Textinformationen zur Sinnkonstruktion
herangezogen. Top-down-Prozesse sind also auch für das Sprachverstehen
von großer Bedeutung.
Es wurden verschiedene Versuche durchgeführt, um zu prüfen, ob
Scripts psychologisch relevant sind. Dabei stellte sich u. a. heraus,
daß Sätze, an die sich Leser zu erinnern glauben, obwohl diese
Sätze nicht in der vorgelegten Geschichte vorkamen, oft zu dem Script
gehören, auf dem die Geschichte
beruht.[54] Außerdem werden Sätze,
die sich auf unmittelbar aufeinanderfolgende Scripthandlungen beziehen, schneller
gelesen und somit schneller verstanden als andere
Sätze.[55]
Scripts beziehen sich nur auf stereotype, häufig wiederkehrende
Handlungsfolgen. Menschen können jedoch auch mit Situationen umgehen,
die neu und ungewöhnlich sind. Da für solche Situationen kein Script
existiert, müssen die Beteiligten ihre Handlungen selbst planen. Sie
stellen also Pläne auf, um ihre Ziele zu erreichen.
Wissen über Pläne und Ziele von Menschen ist oft die Voraussetzung
dafür, daß zwischen den einzelnen Sätzen eines Textes ein
Zusammenhang hergestellt werden kann. Beispiel:
Die Schüler hatten Lust auf ein Eis. Sie fragten eine vorbeigehende Frau nach einer Eisdiele.
Für Menschen ist selbstverständlich, daß sich diese beiden
Sätze nicht auf Tatsachen beziehen, die voneinander unabhängig
sind. Ein Computerprogramm, das dies ebenfalls erkennen soll, benötigt
Wissensstrukturen über Pläne und Ziele von Menschen. Es muß
aus dem ersten Satz das Ziel verwenden(eis) ableiten. Zu diesem Ziel
ist gespeichert, daß das Teilziel wissen(ort(eis)) erfüllt
sein muß. Einer der Standardpläne zum Erreichen dieses Teilziels
ist das Fragen. Darauf bezieht sich der zweite Satz des obigen Textes. Wenn
das Programm dies erkennt, hat es den Zusammenhang zwischen den Sätzen
verstanden.[56]
Spracherkennung wird u. a. für Diktiersysteme eingesetzt. Die
bekanntesten Programme auf diesem Gebiet sind VoiceType von IBM (VoiceType
Dictation 3.0 für professionellen Einsatz um 1520 DM und VoiceType
Simply Speaking mit reduzierten Funktionen um 199 DM) sowie
DragonDictate 2.0 von Dragon Systems. IBM verspricht für VoiceType
eine Erkennungsrate von über 95 %. Voraussetzung dafür ist
allerdings, daß das System vom jeweiligen Benutzer trainiert wurde
und daß beim Diktieren zwischen den Wörtern kurze Pausen gemacht
werden. Das Grundvokabular von 30 000 Wörtern kann auf 64 000
Wörter erweitert werden.[57]
Eines der ersten sprachverstehenden Programme war SHRDLU von Terry Winograd
(1972). Es simuliert auf dem Bildschirm einen Roboterarm, der Bauklötze
in verschiedener Form und Farbe nach den Anweisungen des Benutzers hin und
her bewegt. SHRDLU versteht natürliche Sprache nur in einer sehr
beschränkten "Mikrowelt".[58]
Ein Beispiel für ein System, bei dem Spracherkennung und Sprachverstehen
kombiniert sind, ist HEARSAY-II.[59]
Zur Zeit wird in Saarbrücken das Dolmetschprogramm Verbmobil entwickelt.
Es erkennt (sprecherunabhängig) auf Deutsch oder Japanisch gesprochene
Sätze aus dem Gebiet der Terminabsprache, analysiert sie syntaktisch
und semantisch (tiefe Analyse) und ordnet sie Dialogakten wie suggest_date
oder accept_date zu ("flache" Verarbeitung), generiert eine englische
Übersetzung und spricht sie aus. An dem Forschungsprojekt sind ca. 30
Universitäten, Forschungszentren bzw. Unternehmen beteiligt. Es wurde
seit 1993 mit 65 Millionen DM von der deutschen Regierung
gefördert. In der jetzt anlaufenden zweiten Projektphase soll u. a.
der Themenbereich ausgeweitet werden. Ein System, das Äußerungen
zu jedem Thema versteht, ist allerdings in absehbarer Zukunft nicht zu
erwarten.[60]
"Mit Weltwissen gefüttert." Der Spiegel 5/1997: 164f.
"Verbmobil - Übersetzung von Spontansprache." Online in Internet: URL:
http://www.dfki.uni-sb.de/verbmobil/Vm.Infobrosch.Text.8.3.96.html
[Stand: 21.2.97].
Bauer, Ernst W. (21976): Humanbiologie. Berlin.
Becker, Dieter: "Aspekte der Störverminderung in der Spracherkennung."
In: Fellbaum (1991): 92-108.
Boden, Margaret A. (1992): Die Flügel des Geistes: Kreativität
und künstliche Intelligenz. Übers. Rainer von Savigny.
München.
Bower, G. H., Black J. H. and Turner, T. (1979): `Scripts in memory for texts',
Cogn. Psych. 11, 177-220. (zit. nach Caron).
Broy, Manfred: "Ingenieurorientierte Informatik und `Künstliche
Intelligenz': Konturen eines Selbstverständnisses. Ein Versuch der
informationstechnischen Folgeabschätzung der KI-Forschung und -Anwendung."
In: Schmidt (1992): 223-235.
Caron, Jean (1992): An introduction to psycholinguistics. Übers.
Tim Pownall. Hertfordshire.
Dengel, Andreas (1994): Künstliche Intelligenz: allgemeine Prinzipien
und Modelle. Mannheim, Leipzig, Wien, Zürich.
Dreyfus, Hubert L. und Dreyfus, Stuart E. (1987): Künstliche Intelligenz:
von den Grenzen der Denkmaschine und dem Wert der Intuition. Übers.
Michael Mutz. Reinbek.
Fellbaum, Klaus (1991): Elektronische Spachverarbeitung: Verfahren,
Anwendungen, Wirtschaftlichkeit. München.
Fellbaum, Klaus: "Einführung in die elektronische Spachverarbeitung."
In: Fellbaum (1991): 15-65.
Gardner, Howard (1985): The mind's new science. USA.
Genesereth, Michael R. und Nilsson, Nils J. (1989): Logische Grundlagen
der künstlichen Intelligenz. Braunschweig.
Görz, Günther (Hrsg.) (21995): Einführung in
die künstliche Intelligenz. Bonn.
Graubard, Stephen R. (Hrsg.) (1996): Probleme der Künstlichen
Intelligenz: eine Grundlagendiskussion. Übers. Rike Felka. Wien.
Grimm, Hannelore und Engelkamp, Johannes (1981): Sprachpsychologie: Handbuch
und Lexikon der Psycholinguistik. Berlin.
Groeben Norbert (1982): Leserpsychologie: Textverständnis,
Textverständlichkeit. Münster.
Haugeneder, Hans und Trost, Harald: "Beschreibungsformalismen für
sprachliches Wissen." In: Görz (1995): 365-407.
Helbig, Hermann (1991): Künstliche Intelligenz und automatische
Wissensverarbeitung. Berlin.
Herrmann, Theo (21994): Allgemeine Sprachpsychologie: Grundlagen
und Probleme. Weinheim.
Holmes, John N. (1991): Sprachsynthese und Spracherkennung. Übers.
Günther Ruske. München.
IBM: "VoiceType Simply Speaking.". Online in Internet: URL:
http://www.software.ibm.com/is/voicetype/simply-speaking/d/prodinfo.html
[Stand: 7.4.97].
Kinnebrock, Werner (1992): Neuronale Netze: Grundlagen, Anwendungen,
Beispiele. München, Wien.
Klawitter, Jörg: "`Künstliche Intelligenz' (KI) - Technologischer
Traum und/oder gesamtgesellschaftliches Trauma? Zur Geschichte, Entwicklung,
Zukunft und Grenze der `Künstlichen Intellligenz'". In: Schmidt (1992):
9-56.
Krämer, Sybille (Hrsg.) (1994): Geist - Gehirn - künstliche
Intelligenz: zeitgenössische Modelle des Denkens. Ringvorlesung an der
Freien Universität Berlin. Berlin.
Luger, George F. und Stubblefield, William A. (21993): Artificial
intelligence: structures and strategies for complex problem solving.
Redwood City.
Lunze, Jan und Schwarz, Wolfgang (1991): Künstliche Intelligenz:
Einführung und technische Anwendungen. Berlin.
Mallot, Hanspeter A.: "Neuronale Netze". In: Görz (1995): 813-862.
McCorduck, Pamela: "Künstliche Intelligenz: Ein Aperçu." In:
Graubard 65-83.
Müller, B., Reinhardt J., Stricklan, M. T. (21995): Neural
networks: an introduction. Berlin, Heidelberg.
Nebendahl, Dieter (Hrsg.) (1987): Expertensysteme: Einführung in
Technik und Anwendung. Berlin, München.
Neumerkel, Dietmar: "Klassifikationsverfahren der automatischen Spracherkennung."
In: Fellbaum (1991): 66-91.
Opwis, U. (1992): Kognitive Modellierung: Zur Verwendung wissensbasierter
Systeme in der psychologischen Theoriebildung. Bern.
Penrose, Roger (1991): Computerdenken: des Kaisers neue Kleider oder Die
Debatte um künstliche Intelligenz, Bewußtsein und die Gesetze
der Physik. Übers. Michael Springer. Heidelberg.
Pinkal, Manfred: "Semantik." In: Görz (1995): 431-491.
Rathert, Tom : "Hör mal, Rechner! DragonDictate 2.2 gegen IBM VoiceType
3.0." DOS, April 1997: 124-128.
Rich, Elaine (1988): KI - Einführung und Anwendungen. Übers.
Jörgen Danielsen und Peter Schönau. Hamburg.
Richter, Michael M. (21992): Prinzipien der künstlichen
Intelligenz: Wissensrepräsentation, Inferenz und Expertensysteme.
Stuttgart.
Rickheit, Gert und Strohner, Hans (1993): Grundlagen der kognitiven
Sprachverarbeitung: Modelle, Methoden, Ergebnisse. Tübingen,
Basel.
Rojas, Raúl (1993): Theorie der neuronalen Netze: eine systematische
Einführung. Berlin, Heidelberg.
Rose, Frank (1986): Ins Herz des Verstandes. Auf der Suche nach der
künstlichen Intelligenz. Reinbeck.
Sagerer, Gerhard (1990): Automatisches Verstehen gesprochener Sprache.
Mannheim, Wien, Zürich.
Schäfer, Erich (1994): Grenzen der künstlichen Intelligenz:
John R. Searles Philosophie des Geistes. Stuttgart.
Schank, Roger C. mit Childers, Peter G. (1986): Die Zukunft der
künstlichen Intelligenz. Chancen und Risiken. Übers. Sascha
Mantscheff. Köln.
Schefe, Peter (21991): Künstliche Intelligenz -
Überblick und Grundlagen: grundlegende Konzepte und Methoden zur
Realisierung von Systemen der künstlichen Intelligenz. Mannheim.
Schmidt, Joachim (Hrsg.) (1992): Denken und denken lassen: künstliche
Intelligenz - Möglichkeiten, Folgen, Herausforderungen. Neuwied.
Schnupp, Peter und Leibrandt, Ute (1986): Expertensysteme: nicht nur für
Informatiker. Berlin, Heidelberg, New York, Tokyo.
Seraphin, Marco (1994): Neuronale Netze und Fuzzy-Logik: Verknüpfung
der Verfahren, Anwendungen, Vor- und Nachteile, Simulationsprogramm.
München.
Siekmann, Jörg H.: "Künstliche Intelligenz." In: Krämer (1994):
203-222.
Siekmann, Jörg H.: "Künstliche Intelligenz." In: Schmidt (1992):
57-88.
Stonier Tom (1992): Beyond Information: the natural history of
intelligence. Berlin, Heidelberg.
Strube, Gerhard et al.: "Kognition." In: Görz (1995): 299-359.
Tichy, Mathias und Martens, Ekkehard (1986): Computer-Denken. Hannover.
Ullrich, Otto: "Was spricht gegen Plastikhirne? Ursachen und Folgen der
Maschinisierung des Lebendigen." In: Schmidt (1992): 167-202.
Weizenbaum, Joseph: "Computer-Märchen." In: Schmidt (1992): 273-278.
Wettler, Manfred (1980): Sprache, Gedächtnis, Verstehen. Berlin,
New York.
Zemanek, Heinz (1992): Das geistige Umfeld der Informationstechnik.
Berlin, Heidelberg.
[1] Gardner 138ff, Görz 3-5,
Klawitter 11-17, Rose 43-45, Schefe 16-30, Nebendahl 15,
McCorduck 69-73, Helbig 16-19, Genesereth 7
[2] Rich 1, Schank 40-47,
Nebendahl 16, Görz 1f., Klawitter 9-11, 18-20,
Rose 61-64, Helbig 11-13, Luger 1f, Schefe 6
[3] Klawitter 20
[4] Kinnebrock 9,
Klawitter 20, 23-25, Siekmann 68-74,
Görz 1, 10f, Nebendahl 17, 19, Siekmann 203-212,
Rich 3, Helbig 13-15, Luger 13-21, Lunze 15f,
Zemanek 215f, Schnupp 3
[5] Schnupp 89-100,
Görz 5-7, 865, Schefe 32-40, 101-109,
Rich 37-39, 79-81, 147, 187-190, 217-220, Luger 353,
Dengel 15-22, 26-80, Helbig 37-39, Nebendahl 55,
Seraphin 110-114
[6] Genesereth 1f, Klawitter 25,
Lunze 15, Görz 4f, Schefe 1, Schank 46-48
[7] Zemanek 227
[8] Broy 223
[9] Penrose 15-26, Dreyfus 81-98,
Schefe 1, Gardner 171-177, Rich 3-5, Schäfer 103-129,
Siekmann 212-218, Genesereth 10,
Rose 205, 168-202, 242f, 146-155,
Ullrich 177-185, Broy 232-235, Weizenbaum 273-278,
Zemanek 222-229
[10] Caron 11
[11] Caron 11, Wettler 6f.
[12] Fellbaum 17-29
[13] Fellbaum 67f, 103f
[14] Holmes 166
[15] Fellbaum 97-106
[16] Fellbaum 45-52, 69-73,
Holmes 140-171
[17] Holmes 173-188,
Fellbaum 74-80
[18] Holmes 200f, 181
[19] Holmes 207-213, 219
[20] Kinnebrock 11-15,
Seraphin 20-27, Dengel 106-109, Müller 3-12,
Holmes 10f, Rojas 10-21, Görz 815-819, Bauer 155
[21] einfaches Beispiel (Teil eines
C-Programmes): net=w1*e1+w2*e2+w3*e3; if (net->0) a=1; else a=0;
[22] Rojas 399-425,
Müller 135-138, Kinnebrock 129, Seraphin 167-170
[23] Kinnebrock 11
[24] nach Kinnebrock 20
[25] Kinnebrock 39
[26]
Kinnebrock 25, 30, 50
[27] Kinnebrock 30f
[28] Fellbaum 82, Kinnebrock 10
[29] Fellbaum 81-84,
Kinnebrock 107f
[30] Grimm 152
[31] Caron 32-44, 57, Grimm 149-154, 219,
Herrmann 150-158
[32] Fellbaum 57f, Holmes 206f
[33] Görz 365, Dengel 86f
[34] Krämer 204f, Rich 320,
Nebendahl 20
[35] Rose 201
[36] Schank 60
[37] Rickheit/Strohner 83
[38] Sagerer 85
[39] Rich 232-236, Dengel 48f,
Lunze 106f, Helbig 73-80, Sagerer 85-88, Nebendahl 59-61,
Richter 120-123
[40] nach Rich 232
[41] wenn man davon ausgeht, daß im
Lexikon keine Eigennamen enthalten sind
[42] Caron 76f.
[43] Caron 80
[44] Caron 72-80, 45, Grimm 84-86, 50, 277f.,
Wettler 36, 39-44
[45] Luger 364
[46] Schank 159, Rose 139
[47] Opwis 68-71, Görz 436-440,
Rich 239-247, 352-355, Schank 115-127, 159,
Luger 364-367, Helbig 92-94, Dengel 100-103,
Rose 138-141
[48] Wettler 138
[49] Wettler 138
[50] Wettler 140
[51] nach Opwis 188
[52] Rich 252-256, Schank 133-142,
Görz 329-331, Opwis 71, 187f, Rose 24,
Dengel 104f, Luger 383-386
[53] Groeben 47
[54] Bower, Black and Turner, zit. nach
Caron 158
[55] Rickheit/Strohner 236
[56] Rich 359-361, Schank 142-152,
Rose 65f
[57] Rathert 124-128, IBM
[58] Dreyfus 105ff, Luger 397f,
Rose 125f
[59] Sagerer 2, Luger 188ff
[60] Spiegel, Verbmobil
Letzte
Bearbeitung: 19. August 1999
Erstellt
und bearbeitet von Dora
Warth
Homepage des fb06 *
private Seiten *
Homepage von Dora Warth