next up previous contents index
Next: Familiarität von Texten Up: Die Vorhersage der Aufeinanderfolge Previous: Die Vorhersage der Aufeinanderfolge

 

Ein Algorithmus zur assoziativen Wortergänzung

Das System extrahiert sein sprachliches Wissen aus einem umfangreichen englischsprachigen Textkorpus. Verwendet wurden etwa 90% des Textes von Grolier's Electronic Encyclopedia , einem allgemeinen Lexikon mit einem Umfang von ca. 10 Millionen Wörtern. Die Auftretenshäufigkeiten aller in diesem Textkorpus enthaltenen unterschiedlichen Wörter und Wortketten  bis zu einer maximalen Länge von 20 Wörtern wurden bestimmt. Tabelle gif veranschaulicht die Vorgehensweise am Beispiel einer sehr kleinen Textbasis.

 

in the city there is an old church; nearby there is the theatre
in 1 in the 1 in the city 1 in the city there 1
the 2 the city 1 the city there 1 the city there is 1
city 1 city there 1 city there is 1 city there is an 1
there 2 there is 2 there is an 1 there is an old 1
is 2 is an 1 is an old 1 is an old church 1
an 1 an old 1 an old church 1 an old church; 1
old 1 old church 1 old church; 1 old church; nearby 1
church 1 church ; 1 church; nearby 1 church; nearby there 1
; 1 ; nearby 1 ; nearby there 1 ; nearby there is 1
nearby 1 nearby there 1 nearby there is 1 nearby there is the 1
theatre 1 is the 1 there is the 1 there is the theatre 1
the theatre 1 is the theatre 1
Tabelle: Häufigkeiten aller Wortfolgen  bis zu einer Länge von vier Wörtern für einen kurzen Beispieltext.

 

Die Kenntnis der Auftretenshäufigkeiten einer großen Anzahl von Wortfolgen soll das System nun in die Lage versetzen, unvollständige Wortfolgen in sinnvoller Weise zu ergänzen. Aufgaben dieser Art sind für Versuchspersonen einfach zu lösen. Es bereitet ihnen keine Schwierigkeiten, einen Satz mit einem fehlenden Wort, wie etwa ``on the hill there is tex2html_wrap_inline23685 old castle'', zu vervollständigen.

In Tabelle gif finden sich für dieses Beispiel folgende relevanten Wortfolgen:

on the hill there is tex2html_wrap_inline23685 old castle
there is an old
is an old
is an
an old
there is the
is the

Demnach hätte das System die Möglichkeit, an der fraglichen Stelle entweder an oder the einzusetzen. Für die letztendliche Entscheidung, welchem der vorgeschlagenen Wörter der Vorzug gegeben werden sollte, wird eine Formel verwendet, die eine Aussage darüber ermöglicht, wie gut ein bestimmtes Wort in die vorgegebene Lücke paßt. Die Formel berücksichtigt sowohl die Anzahl der zum jeweiligen Wort gefundenen Wortfolgen als auch deren Länge:

  equation16021

H(w) ist hierbei die absolute Häufigkeit des Wortes w im Textkorpus. tex2html_wrap_inline25083 ist die Häufigkeit von Wortfolgen der Länge i zugunsten von Wort w. P ist eine Konstante, die experimentell untersucht wurde. Für P>1 erfahren lange Wortfolgen eine stärkere Berücksichtigung als kürzere, was aufgrund der geringeren Auftretenswahrscheinlichkeit langer Wortfolgen plausibler erscheint als der umgekehrte Fall (P<1).

Gleichung gif ordnet also solchen Wörtern einen hohen Wert zu, die in häufigen und langen Wortfolgen auftreten (für P>1). Wegen des Faktors von tex2html_wrap_inline25097 kann der Term vor der Summe in der Regel vernachlässigt werden. Lediglich wenn für unterschiedliche Wörter ein identischer Summenterm auftritt, wirkt sich die Worthäufigkeit H(w) in der Weise aus, daß häufigere Wörter bevorzugt werden.

Um zu bestimmen, welche Wörter sich für die Ergänzung einer Lücke eignen, wird jedem im Korpus existierenden Wort gemäß Gleichung gif ein Wert A(w) zugeordnet und es wird eine nach diesen Werten geordnete Wortliste erstellt. Für das Beispiel ``on the hill there is tex2html_wrap_inline23685 old castle'' ergibt sich für P=100 das in Tabelle gif dargestellte Ergebnis. Das entsprechende Resultat für ``on the hill there is an tex2html_wrap_inline23685 castle'' ist in Tabelle gif dargestellt. Dieses und alle weiteren Resultate beruhen auf einem Wortschatz von 56 809 unterschiedlichen Wörtern.

 

Rang A(w) Wort
1 2.53 tex2html_wrap_inline25111 a
2 1.79 tex2html_wrap_inline25111 no
3 1.14 tex2html_wrap_inline25111 the
4 7.07 tex2html_wrap_inline25117 an
5 4.07 tex2html_wrap_inline25117 also
6 3.61 tex2html_wrap_inline25117 little
7 2.62 tex2html_wrap_inline25117 some
56808 0 bouvet
56809 0 aeronautica
Tabelle: Sortierte Wortliste nach Eingabe des Satzes ``on the hill there is tex2html_wrap_inline23685 old castle''.

 

 

Rang A(w) Wort
1 3.33 tex2html_wrap_inline25111 important
2 3.01 tex2html_wrap_inline25111 increased
3 2.04 tex2html_wrap_inline25111 increase
4 2.04 tex2html_wrap_inline25111 enormous
5 2.02 tex2html_wrap_inline25111 infinite
34 3.20 tex2html_wrap_inline25117 English
35 3.15 tex2html_wrap_inline25117 ancient
52 1.39 tex2html_wrap_inline25117 old
Tabelle: Sortierte Wortliste nach Eingabe des Satzes ``on the hill there is an tex2html_wrap_inline23685 castle''.

 


next up previous contents index
Next: Familiarität von Texten Up: Die Vorhersage der Aufeinanderfolge Previous: Die Vorhersage der Aufeinanderfolge

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997