Im vorigen Abschnitt wurde eine Methode vorgestellt, wie die Wörter eines sehr umfangreichen Wortschatzes nach ihrer Eignung für die Ergänzung einer Textlücke in eine Rangfolge gebracht werden können. Hierauf aufbauend sollen nun beliebigen Texten, insbesondere einzelnen Sätzen, Bewertungen zugeordnet werden, die eine Aussage darüber machen, wie wahrscheinlich das Auftreten des jeweiligen Satzes ist. In der Regel wird man hierbei davon ausgehen können, daß syntaktisch und semantisch richtigen Sätzen bessere Werte zugeordnet werden als falschen.
Die Vorgehensweise beruht auf dem Gedanken, daß einem Satz dann eine günstige Bewertung zugeordnet wird, wenn die einzelnen im Satz enthaltenen Wörter jeweils möglichst gut prognostizierbar sind. Der Algorithmus arbeitet wie folgt: Der Satz wird nacheinander an jeder Wortposition mit einer Lücke versehen und für jede Lücke wird wie im vorigen Abschnitt beschrieben eine sortierte Wortliste berechnet. Der Rangplatz des jeweils ausgelassenen Wortes wird bestimmt. Die Bewertung des Satzes ergibt sich aus dem Mittelwert dieser Rangplätze. Dieser Wert wird im weiteren als Familiarität M bezeichnet. Ein niedriger Wert für M deutet auf eine hohe Auftretenswahrscheinlichkeit eines Satzes hin. Diese Vorgehensweise soll am Beispiel des Satzes ``the word has seven letters'' dargestellt werden:
|
| word | has | seven | letters | Rangplatz von the: | 1 |
| the | | has | seven | letters | Rangplatz von word: | 98 |
| the | word | | seven | letters | Rangplatz von has: | 8 |
| the | word | has | | letters | Rangplatz von seven: | 208 |
| the | word | has | seven | | Rangplatz von letters: | 81 |
| Mittlerer Rangplatz M: | 79.2 |
Die für diesen Satz ermittelte Familiarität erlaubt für sich allein genommen noch keine Interpretation. Deshalb werden anhand der folgenden Referenztexte Vergleichsmöglichkeiten geschaffen:
Abbildung: Die Familiarität M von Referenztext 1 in Abhängigkeit
des Parameters P.
Die Referenztexte 1, 3 und 4 wurden in einer Länge von etwa 250 Wörtern aus den ersten in der jeweils verwendeten Textbasis gefundenen Sätzen zusammengestellt, die folgende beiden Bedingungen erfüllten: Um einen ausreichenden Kontext für jedes Wort zu garantieren, mußte die Mindestlänge der Sätze 30 Wörter betragen. Weiterhin sollten alle in den Sätzen vorkommenden Wörter im verwendeten Textkorpus ausreichend repräsentiert sein. Hierfür wurde eine minimale Korpushäufigkeit von 100 festgelegt. Diese Mindesthäufigkeit wurde von insgesamt 7102 unterschiedlichen Wörtern erreicht.
Mittels Referenztext 1 wurde zunächst der Parameter P aus
Gleichung
experimentell optimiert. Die Entwicklung
der Familiarität M dieses Textes in Abhängigkeit von P ist in
Abb.
dargestellt. Das Minimum der Kurve wird für Werte von
P=100 und größer erreicht. Dies bedeutet, daß sich - wie erwartet -
eine höhere Gewichtung langer Wortfolgen gegenüber kürzeren
als günstig erweist. Alle nachfolgenden Untersuchungen werden
mit P = 100 durchgeführt.
Für diese Festlegung des freien Parameters P ergeben sich für die Referenztexte 1 bis 4 folgende Werte für die Familiarität M:
| Referenztext 1: | 196,49 |
| Referenztext 2: | 2517,13 |
| Referenztext 3: | 1,01 |
| Referenztext 4: | 539,35 |
Diese Werte können wie folgt interpretiert werden: Der Wert von 1,01 für Referenztext 3 bedeutet, daß einmal eingelesene Sätze zu fast 100 Prozent wieder reproduziert werden können, d. h. daß ein Gedächtniseffekt existiert. Wird dem System die Aufgabe gestellt, einen bekannten Text, dessen Anfang vorgegeben wurde, fortzuführen, so wird es diese Aufgabe dadurch lösen, daß der Text entsprechend dem früher eingelesenen fortgesetzt wird. Ist der Textanfang mehrdeutig, so wird es mit demjenigen Text fortfahren, der öfter eingelesen wurde.
Abbildung: Die Familiarität M von Referenztext 1 in Abhängigkeit
von der Korpuslänge L (Millionen Wörter).
Der Wert von 196,49 für Referenztext 1 ist im Vergleich zum Wert von 2517 für denselben Text mit zufälliger Wortreihenfolge zu sehen. Er zeigt, daß ein korrekter Text gegenüber einer zufälligen Folge von Wörtern besser bewertet wird. Daß auch der Zufallstext eine den Erwartungswert (dieser ergibt sich als die Anzahl der Wörter im Vokabular geteilt durch zwei, also 56 809 / 2) übertreffende Familiarität erhält, liegt daran, daß entsprechend der Textauswahl fast nur häufige Wörter enthalten sind. Der stilistisch und inhaltlich im Vergleich zu Text 1 völlig andersartige Referenztext 4 hat mit einer Familiarität von 539,35 einen wesentlich besseren Wert als Referenztext 2. Dies bedeutet, daß für die jeweilige Sprache eine Generalisierung erzielt wird.
Abbildung: Die Familiarität M von Referenztext 1 in Abhängigkeit
von der maximalen Wortfolgenlänge K (Anzahl Wörter).
Um eine Abschätzung zu erhalten, wie umfangreich das der Bewertung
zugrundeliegende Textkorpus sein sollte, wurde
für Referenztext 1 die Abhängigkeit der Familiarität von der
Korpuslänge ermittelt (vergl. Abb.
). Es
zeigt sich, daß bei einer
Vergrößerung des Korpus keine wesentliche Verbesserung
der Familiaritätswerte zu erwarten ist.
Bei der Ermittlung der Korpushäufigkeiten von Wortfolgen
(vergl. Tabelle
) wurde bislang die maximale
Länge der Wortfolgen willkürlich
auf 20 Wörter begrenzt. Da sich Wortfolgen dieser Länge wohl nur
in den seltensten Fällen wiederholen werden, scheint dieser
Wert eher hoch gegriffen zu sein. Um hier eine genauere
Aussage machen zu können, wurde die maximale Wortfolgenlänge
versuchsweise verkürzt, das heißt, Wortfolgen ab einer festgesetzten
Länge wurden nicht mehr berücksichtigt. In Abbildung
wurde die Familiaritätsfunktion M für Referenztext 1 in
Abhängigkeit von der maximalen Wortfolgenlänge aufgetragen.
Es zeigt sich, daß bereits mit Worttripeln gute Werte erzielt
werden können, und daß sich ab einer Wortfolgenlänge von fünf
praktisch keine
Verbesserung mehr ergibt. Dies bedeutet, daß das Verfahren
in erster Linie Abhängigkeiten im Bereich kurzer Wortabstände
erfaßt. Damit eignet es sich am ehesten für die syntaktische
Analyse eines Textes, für die in vielen Fällen die Betrachtung der direkten
Wortnachbarschften genügt.