Das System extrahiert sein sprachliches Wissen aus einem
umfangreichen englischsprachigen Textkorpus.
Verwendet wurden etwa 90% des Textes von Grolier's Electronic
Encyclopedia , einem allgemeinen Lexikon mit einem Umfang von
ca. 10 Millionen Wörtern. Die
Auftretenshäufigkeiten aller in diesem Textkorpus enthaltenen
unterschiedlichen Wörter und Wortketten bis zu einer maximalen Länge
von 20 Wörtern wurden bestimmt. Tabelle
veranschaulicht die Vorgehensweise am Beispiel einer sehr kleinen Textbasis.
Die Kenntnis der Auftretenshäufigkeiten einer großen Anzahl
von Wortfolgen soll das System nun in die Lage versetzen,
unvollständige Wortfolgen in sinnvoller Weise zu ergänzen.
Aufgaben dieser Art sind für Versuchspersonen einfach zu lösen.
Es bereitet ihnen keine Schwierigkeiten, einen Satz mit einem
fehlenden Wort, wie etwa ``on the hill there is
old
castle'', zu vervollständigen.
In Tabelle
finden sich für dieses Beispiel
folgende relevanten Wortfolgen:
| on the hill there is | | old castle |
| there is | an | old |
| is | an | old |
| is | an | |
| an | old | |
| there is | the | |
| is | the |
Demnach hätte das System die Möglichkeit, an der fraglichen Stelle entweder an oder the einzusetzen. Für die letztendliche Entscheidung, welchem der vorgeschlagenen Wörter der Vorzug gegeben werden sollte, wird eine Formel verwendet, die eine Aussage darüber ermöglicht, wie gut ein bestimmtes Wort in die vorgegebene Lücke paßt. Die Formel berücksichtigt sowohl die Anzahl der zum jeweiligen Wort gefundenen Wortfolgen als auch deren Länge:
H(w) ist hierbei die absolute Häufigkeit des Wortes w im Textkorpus.
ist die Häufigkeit von Wortfolgen der Länge i zugunsten
von Wort w. P ist eine Konstante, die experimentell
untersucht wurde. Für P>1 erfahren lange Wortfolgen eine
stärkere Berücksichtigung als kürzere, was aufgrund der geringeren
Auftretenswahrscheinlichkeit langer Wortfolgen plausibler
erscheint als der umgekehrte Fall (P<1).
Gleichung
ordnet also solchen Wörtern einen hohen Wert
zu, die in häufigen und langen Wortfolgen auftreten (für P>1).
Wegen des Faktors von
kann der Term vor der Summe in der Regel
vernachlässigt werden. Lediglich wenn für unterschiedliche Wörter
ein identischer Summenterm auftritt, wirkt sich die Worthäufigkeit
H(w) in der Weise aus, daß häufigere Wörter bevorzugt werden.
Um zu bestimmen, welche Wörter sich für die Ergänzung einer
Lücke eignen, wird jedem im Korpus existierenden Wort gemäß
Gleichung
ein Wert A(w) zugeordnet und es wird
eine nach diesen Werten geordnete Wortliste erstellt.
Für das Beispiel ``on the hill there is
old castle'' ergibt sich
für P=100 das in Tabelle
dargestellte Ergebnis.
Das entsprechende Resultat für ``on the hill there is an
castle'' ist in Tabelle
dargestellt.
Dieses und alle weiteren Resultate beruhen auf einem Wortschatz von
56 809 unterschiedlichen Wörtern.
| Rang | A(w) | Wort |
| 1 | 2.53 | a |
| 2 | 1.79 | no |
| 3 | 1.14 | the |
| 4 | 7.07 | an |
| 5 | 4.07 | also |
| 6 | 3.61 | little |
| 7 | 2.62 | some |
| 56808 | 0 | bouvet |
| 56809 | 0 | aeronautica |
| Rang | A(w) | Wort |
| 1 | 3.33 | important |
| 2 | 3.01 | increased |
| 3 | 2.04 | increase |
| 4 | 2.04 | enormous |
| 5 | 2.02 | infinite |
| 34 | 3.20 | English |
| 35 | 3.15 | ancient |
| 52 | 1.39 | old |