next up previous contents index
Next: Ein Tagger mit variabler Up: Kontextorientierte Wortartenbestimmung Previous: Kontextorientierte Wortartenbestimmung

Programme für die automatische Wortartenbestimmung

 

Klein und Simmons (1963) haben als Erste einen Algorithmus veröffentlicht, der den Wörtern eines Textes automatisch ihre Wortarten zuordnet. Das Programm analysiert die Wortendungen. Funktionswörter sowie Wörter, die sich nicht regelmäßig verhalten, werden mit Hilfe von Ausnahmelisten abgefangen. Schließlich wird versucht, mehrdeutige Tagfolgen mit einer Liste bekannter Tagfolgen in Übereinstimmung zu bringen. Das Verfahren ist eine interessante Pionierleistung, dessen Genauigkeit mit 90% richtig annotierter Wörter angegeben wird, weist aber einige Einschränkungen auf: Zum einen kann es nur Wortfolgen bearbeiten, in denen maximal drei mehrdeutige Wörter aufeinander folgen. Zum zweiten verwendet es ein noch wenig differenziertes Tag-System von nur 30 Tags. Schließlich wurde es nur auf kurze Textauszüge angewandt.

Anfang der 60er Jahre wurde an der Brown University in Rhode Island das sogenannte Brown Korpus  zusammengetragen, das einen repräsentativen Querschnitt durch die amerikanische Schriftsprache geben sollte. Es enthält 500 Textauszüge mit jeweils etwa 2000 Wörtern. Die Auszüge verteilen sich gezielt auf 15 Textkategorien (Francis & Kucera, 1982; Francis & Kucera, 1989; Kucera & Francis, 1967).

In den siebziger Jahren wurde dieses Brown Korpus mit Hilfe des auf Klein und Simmons (1963) aufbauenden Programmes TAGGIT  mit Wortartenmarkierungen versehen. Dieses Programm wurde von Greene und Rubin (1971) entwickelt. Es verwendet ein Lexikon mit etwa 3000 Einträgen. Alle Wörter eines mit Tags zu versehenden Textes werden in diesem Lexikon nachgeschlagen. Diejenigen Wörter, die nicht gefunden werden, werden mit einer Liste von etwa 450 Wortendungen verglichen. Da es zu mehr als einer Übereinstimmung der Wortendungen kommen kann, können durch diesen Vergleich einem Wort mehrere Tags zugewiesen werden. An dieser Stelle setzt eine Kontextanalyse ein, die diese Mehrdeutigkeiten mit Hilfe sogenannter ``Context Frame Rules'' auflösen soll. Die Context Frame Rules legen fest, welche Tags in korrekten Sätzen aufeinander folgen dürfen und welche nicht. Sie wurden intuitiv sowie auf der Basis kurzer, manuell annotierter Texte aufgestellt und besagen beispielsweise, daß ein finites Verb nicht auf einen Artikel folgen kann (Greene & Rubin, 1971, S. 32-40). Wenn die Context Frame Rules einmal nicht in der Lage waren, die Ambiguitäten aufzulösen, war eine manuelle Auswahl erforderlich.

Die Erfolgsquote von TAGGIT wird für einen Beispieltext wie folgt angegeben (Greene & Rubin, 1971, S. 54):

``In the above sample of 228 words, 148 (64.5%) were tagged unambiguously by the program using the Word List and the Suffix List; thirty-one (13.6%) remained ambiguous after application of the Context Frame Rules; none of the words was tagged incorrectly; and possible error-producing context rules produced no errors.''

Die zum Annotieren des Brown-Korpus verwendeten Wortarten-Tags werden von Greene & Rubin (1971, S. 3-21) ausführlich (mit Angabe von Beispielsätzen) beschrieben. Mit den Wortarten-Tags sollten solche Wörter zusammengefaßt werden, denen in Texten gleichartige grammatische Funktionen zukommen. Das Tag-System war in den Jahren 1965 bis 1969 im Rahmen des Brown-Tougaloo English Language Projekts (Francis, 1970) entwickelt worden. Die in Tabelle gif dargestellte Liste der 87 Tags wurde dem dem Brown-Korpus beigefügten Handbuch (Francis & Kucera, 1989) entnommen.

 

Tag Beschreibung Beispiele
. sentence closer . ; ? !
( left paren
) right paren
tex2html_wrap_inline25413 not, n't
- dash
, comma
: colon
ABL pre-qualifier quite, rather
ABN pre-quantifier half, all
ABX pre-quantifier/double conjunction both
AP post-determiner many, several, next
AT article a, the, no
BE be
BED were
BEDZ was
BEG being
BEM am
BEN been
BER are
BEZ is
CC coordinating conjunction and, or
CD cardinal numeral one, two, 2 etc.
CS subordinating conjunction if, although
DO do
DOD did
DOZ does
DT singular determiner this, that
DTI singular or plural determiner/quantifier some, any
DTS plural determiner these, those
DTX determiner/double conjunction either
EX existential there
FW foreign word (hyphenated before regular tag)
HL word in headline (hyphenated after regular tag)
HV have
HVD had (past tense)
HVG having
HVN had (past participle)
HVZ has
IN preposition
JJ adjective
JJR comparative adjective
JJS semantically superlative adjective chief, top
JJT morphologically superlative adjective biggest
Tabelle: Liste der für das Brown-Korpus verwendeten Tags (nach Francis & Kucera, 1989, S. 25). Beispiele sind kursiv gedruckt. Tags, bei denen dies angemerkt ist, ergänzen andere Tags, etwa ``FW'' für ``foreign word''.

 

 

Tag Beschreibung Beispiele
MD modal auxiliary can, should, will
NC cited word (hyphenated after regular tag)
NN singular or mass noun
NNS plural noun
NN$ possessive singular noun
NNS$ possessive plural noun
NP proper noun
NP$ possessive proper noun
NPS plural proper noun
NPS$ possessive plural proper noun
NR adverbial noun home, today, west
NRS plural adverbial noun
NR$ possessive adverbial noun
OD ordinal numeral first, 2nd
PN nominal pronoun everybody, nothing
PN$ possessive nominal pronoun
PP$ possessive personal pronoun my, our
PP$$ second (nominal) possessive personal pronoun mine, ours
PPL singular reflexive/intensive personal pronoun myself
PPLS plural reflexive/intensive personal pronoun ourselves
PPO objective personal pronoun me, him, them
PPS 3rd singular nominative personal pronoun he, she, it, one
PPSS other nominative personal pronoun I, we, they
QL qualifier very, fairly
QLP post-qualifier enough, indeed
RB adverb
RBR comparative adverb
RBT superlative adverb
RN nominal adverb here, then, indoors
RP adverb/particle about, off, up
TL word in title (hyphenated after regular tag)
TO infinitive marker to
UH interjection, exclamation
VB verb, base form
VBD verb, past tense
VBG verb, present participle/gerund
VBN verb, past participle
VBZ verb, 3rd singular present
WDT wh-determiner what, which
WP$ possessive wh-pronoun whose
WPO objective wh-pronoun whom, which, that
WPS nominative wh-pronoun who, which, that
WQL wh-qualifier how
WRB wh-adverb how, where, when
Tabelle: Liste der für das Brown-Korpus verwendeten Tags (Fortsetzung).

 

Im Zeitraum von 1970 bis 1978 wurde an den Universitäten von Lancaster und Oslo in Zusammenarbeit mit dem Norwegian Computing Centre for the Humanities in Bergen ein dem Brown Korpus entsprechendes Korpus für das britische Englisch zusammengestellt. Dieses wurde nach den Anfangsbuchstaben der involvierten Städte als LOB-Korpus  bezeichnet (vergl. Johansson et al., 1978).

Von 1978 bis 1983 wurde das LOB-Korpus mit Wortarten-Tags versehen. Hierzu wurde aufbauend auf dem TAGGIT-Programm der Brown-University ein Constituent-Likelihood Automatic Word-Tagging System (CLAWS)  entwickelt. Dieses System wird in Garside et al. (1987) ausführlich beschrieben.

Ausgehend von einem Tag-System mit insgesamt 133 Einträgen werden zunächst jedem Wort eines Textes alle bei isolierter Betrachtung möglichen Tags zugeordnet. Zur Auflösung auftretender Ambiguitäten wird eine Tabelle mit den in einem größeren annotierten Korpus beobachteten Übergangswahrscheinlichkeiten zwischen Paaren von Tags benötigt. Für jedes in einem Satz vorkommende Paar benachbarter Wörter werden mit Hilfe dieser Tabelle alle in Frage kommenden Tag-Übergangswahrscheinlichkeiten ermittelt. Die Wahrscheinlichkeit einer jeden möglichen Tagfolge für die Wörter des gesamten Satzes wird gleichgesetzt mit dem Produkt aller einzelnen Übergangswahrscheinlichkeiten zwischen benachbarten Tags, wobei zusätzlich berücksichtigt wird, mit welcher Wahrscheinlichkeit einem bestimmten Wort ein bestimmtes Tag zugeordnet wird. Für ein bestimmtes Wort wird schließlich dasjenige Tag ausgewählt, für das die Summe der Wahrscheinlichkeiten aller Tagfolgen, die an der betreffenden Position dieses Tag enthalten, maximal ist. Bei der Annotierung unbekannter Texte wird die Quote korrekt mit Tags versehener Wörter von Sampson (Garside et al., 1987, S. 21) mit 96 bis 97% angegeben.

Die zur Annotierung des LOB-Korpus verwendete Anzahl von Tags ist mit 133 beträchtlich größer als die beim Brown-Korpus. Bei der Festlegung der Tags ging es darum, mehr grammatische Unterscheidungen berücksichtigen zu können, dabei aber dennoch die Vergleichbarkeit mit dem Brown-Korpus zu gewährleisten. So werden etwa bei den Substantiven Unterscheidungen bezüglich der Großschreibung gemacht, und die Satzzeichen werden nicht mehr gruppiert, sondern erhalten jeweils eigene Tags.

Während bei CLAWS für die Wortartenzuordnung in der Regel die Übergangswahrscheinlichkeiten zwischen jeweils zwei Tags zugrunde gelegt werden (Bigramm-Modell), schlägt Church (1988) die Verwendung eines Trigramm-Modelles  vor, mit dem er Fehlerquoten zwischen 1 und 5% erzielt. Zunächst werden wie bei CLAWS jedem Wort eines zu analysierenden Satzes alle bei isolierter Betrachtung möglichen Tags zugeordnet. Gleichfalls wird dem Brown-Korpus zu jedem Wort/Tag-Paar eine Wahrscheinlichkeit entnommen, die angibt, in wieviel Prozent der Fälle das betrachtete Wort das jeweilige Tag erhalten hat. Diese Prozentzahl wird als ``lexikalische Wahrscheinlichkeit''  bezeichnet. Die Umgebung eines Wortes wird mit der ``kontextuellen Wahrscheinlichkeit''  berücksichtigt (Church, 1988, S. 139):

``The contextual probability, the probability of observing part of speech X given the following two parts of speech Y and Z, is estimated by dividing the trigram frequency XYZ by the bigram frequency YZ. [...] A search is performed to find the assignment of part of speech tags to words that optimizes the product of the lexical and contextual probabilities. Conceptually, the search enumerates all possible assignments of parts of speech to input words [...] and the best sequence is selected.''

Ein weiterer CLAWS-ähnlicher Ansatz zur automatischen Annotierung findet sich in DeRose (1988). Bei dessen VOLSUNGA-System  wurden gegenüber CLAWS einige Vereinfachungen vorgenommen, die zu einem optimalen (linearen) Laufzeitverhalten und weniger Speicherplatzbedarf führen. Dennoch konnte - bei einem auf 97 Tags reduzierten Tag-System - die Quote richtig annotierter Wörter bei etwa 96% gehalten werden. DeRose quantifiziert das Maß der Ambiguität der Wörter des Brown-Korpus: Er gibt an, daß etwa 11,5% der Types (Vokabular) und über 40% der Tokens (laufende Wortformen) mehrdeutig sind.

Ein Ansatz, das Annotierungs-Problem mit Neuronalen Netzwerken anzugehen, wird in Benello, Mackie & Anderson (1989) beschrieben. Es handelt sich um ein dreischichtiges Backpropagation-Netzwerk mit insgesamt 560 Zellen. Davon entfallen 236 Zellen auf die Eingabe- und 88 Zellen auf die Ausgabeschicht. In der Ausgabeschicht entspricht jede Zelle einem Tag. In der Eingabeschicht dienen ebenfalls 88 Zellen der Darstellung des Wortes, dessen Wortart bestimmt werden soll, sowie weitere 88 Zellen zur Darstellung seines Nachfolgers. Mit den restlichen 60 Zellen der Eingabeschicht werden die vier Vorgängerworte repräsentiert, allerdings aus Gründen des Rechenaufwandes in verteilter Form mit jeweils nur 15 Zellen pro Wort. Die bei isolierter Betrachtung möglichen Tags werden wie bei den statistischen Systemen einer Liste entnommen. Das Netzwerk wurde mit Sätzen aus dem Brown-Korpus trainiert. Die danach erzielte Trefferquote beim Annotieren neuer Sätze beträgt etwa 95%.

In jüngster Zeit wurden Algorithmen zur Wortartenannotierung angegeben, die mit unbearbeitetem Text trainiert werden können, für die die Übergangswahrscheinlichkeiten zwischen Tags also nicht bekannt sein müssen (Cutting et al., 1992; Merialdo, 1994). Merialdo kommt jedoch zu dem Ergebnis, daß bessere Ergebnisse erzielt werden, wenn die Tag-Übergangswahrscheinlichkeiten auf der Basis größerer annotierter Korpora geschätzt werden können.


next up previous contents index
Next: Ein Tagger mit variabler Up: Kontextorientierte Wortartenbestimmung Previous: Kontextorientierte Wortartenbestimmung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997