Klein und Simmons (1963) haben als Erste einen Algorithmus veröffentlicht, der den Wörtern eines Textes automatisch ihre Wortarten zuordnet. Das Programm analysiert die Wortendungen. Funktionswörter sowie Wörter, die sich nicht regelmäßig verhalten, werden mit Hilfe von Ausnahmelisten abgefangen. Schließlich wird versucht, mehrdeutige Tagfolgen mit einer Liste bekannter Tagfolgen in Übereinstimmung zu bringen. Das Verfahren ist eine interessante Pionierleistung, dessen Genauigkeit mit 90% richtig annotierter Wörter angegeben wird, weist aber einige Einschränkungen auf: Zum einen kann es nur Wortfolgen bearbeiten, in denen maximal drei mehrdeutige Wörter aufeinander folgen. Zum zweiten verwendet es ein noch wenig differenziertes Tag-System von nur 30 Tags. Schließlich wurde es nur auf kurze Textauszüge angewandt.
Anfang der 60er Jahre wurde an der Brown University in Rhode Island das sogenannte Brown Korpus zusammengetragen, das einen repräsentativen Querschnitt durch die amerikanische Schriftsprache geben sollte. Es enthält 500 Textauszüge mit jeweils etwa 2000 Wörtern. Die Auszüge verteilen sich gezielt auf 15 Textkategorien (Francis & Kucera, 1982; Francis & Kucera, 1989; Kucera & Francis, 1967).
In den siebziger Jahren wurde dieses Brown Korpus mit Hilfe des auf Klein und Simmons (1963) aufbauenden Programmes TAGGIT mit Wortartenmarkierungen versehen. Dieses Programm wurde von Greene und Rubin (1971) entwickelt. Es verwendet ein Lexikon mit etwa 3000 Einträgen. Alle Wörter eines mit Tags zu versehenden Textes werden in diesem Lexikon nachgeschlagen. Diejenigen Wörter, die nicht gefunden werden, werden mit einer Liste von etwa 450 Wortendungen verglichen. Da es zu mehr als einer Übereinstimmung der Wortendungen kommen kann, können durch diesen Vergleich einem Wort mehrere Tags zugewiesen werden. An dieser Stelle setzt eine Kontextanalyse ein, die diese Mehrdeutigkeiten mit Hilfe sogenannter ``Context Frame Rules'' auflösen soll. Die Context Frame Rules legen fest, welche Tags in korrekten Sätzen aufeinander folgen dürfen und welche nicht. Sie wurden intuitiv sowie auf der Basis kurzer, manuell annotierter Texte aufgestellt und besagen beispielsweise, daß ein finites Verb nicht auf einen Artikel folgen kann (Greene & Rubin, 1971, S. 32-40). Wenn die Context Frame Rules einmal nicht in der Lage waren, die Ambiguitäten aufzulösen, war eine manuelle Auswahl erforderlich.
Die Erfolgsquote von TAGGIT wird für einen Beispieltext wie folgt angegeben (Greene & Rubin, 1971, S. 54):
``In the above sample of 228 words, 148 (64.5%) were tagged unambiguously by the program using the Word List and the Suffix List; thirty-one (13.6%) remained ambiguous after application of the Context Frame Rules; none of the words was tagged incorrectly; and possible error-producing context rules produced no errors.''
Die zum Annotieren des Brown-Korpus verwendeten Wortarten-Tags
werden von Greene & Rubin (1971, S. 3-21) ausführlich
(mit Angabe von Beispielsätzen) beschrieben. Mit den Wortarten-Tags
sollten solche Wörter zusammengefaßt werden, denen in Texten
gleichartige grammatische Funktionen zukommen.
Das Tag-System war in den Jahren 1965 bis 1969 im Rahmen des
Brown-Tougaloo English Language Projekts (Francis, 1970) entwickelt
worden. Die in Tabelle
dargestellte Liste der 87 Tags wurde dem dem Brown-Korpus beigefügten
Handbuch (Francis & Kucera, 1989) entnommen.
| Tag | Beschreibung | Beispiele |
| . | sentence closer | . ; ? ! |
| ( | left paren | |
| ) | right paren | |
|
| not, n't | |
| - | dash | |
| , | comma | |
| : | colon | |
| ABL | pre-qualifier | quite, rather |
| ABN | pre-quantifier | half, all |
| ABX | pre-quantifier/double conjunction | both |
| AP | post-determiner | many, several, next |
| AT | article | a, the, no |
| BE | be | |
| BED | were | |
| BEDZ | was | |
| BEG | being | |
| BEM | am | |
| BEN | been | |
| BER | are | |
| BEZ | is | |
| CC | coordinating conjunction | and, or |
| CD | cardinal numeral | one, two, 2 etc. |
| CS | subordinating conjunction | if, although |
| DO | do | |
| DOD | did | |
| DOZ | does | |
| DT | singular determiner | this, that |
| DTI | singular or plural determiner/quantifier | some, any |
| DTS | plural determiner | these, those |
| DTX | determiner/double conjunction | either |
| EX | existential there | |
| FW | foreign word (hyphenated before regular tag) | |
| HL | word in headline (hyphenated after regular tag) | |
| HV | have | |
| HVD | had (past tense) | |
| HVG | having | |
| HVN | had (past participle) | |
| HVZ | has | |
| IN | preposition | |
| JJ | adjective | |
| JJR | comparative adjective | |
| JJS | semantically superlative adjective | chief, top |
| JJT | morphologically superlative adjective | biggest |
| Tag | Beschreibung | Beispiele |
| MD | modal auxiliary | can, should, will |
| NC | cited word (hyphenated after regular tag) | |
| NN | singular or mass noun | |
| NNS | plural noun | |
| NN$ | possessive singular noun | |
| NNS$ | possessive plural noun | |
| NP | proper noun | |
| NP$ | possessive proper noun | |
| NPS | plural proper noun | |
| NPS$ | possessive plural proper noun | |
| NR | adverbial noun | home, today, west |
| NRS | plural adverbial noun | |
| NR$ | possessive adverbial noun | |
| OD | ordinal numeral | first, 2nd |
| PN | nominal pronoun | everybody, nothing |
| PN$ | possessive nominal pronoun | |
| PP$ | possessive personal pronoun | my, our |
| PP$$ | second (nominal) possessive personal pronoun | mine, ours |
| PPL | singular reflexive/intensive personal pronoun | myself |
| PPLS | plural reflexive/intensive personal pronoun | ourselves |
| PPO | objective personal pronoun | me, him, them |
| PPS | 3rd singular nominative personal pronoun | he, she, it, one |
| PPSS | other nominative personal pronoun | I, we, they |
| QL | qualifier | very, fairly |
| QLP | post-qualifier | enough, indeed |
| RB | adverb | |
| RBR | comparative adverb | |
| RBT | superlative adverb | |
| RN | nominal adverb | here, then, indoors |
| RP | adverb/particle | about, off, up |
| TL | word in title (hyphenated after regular tag) | |
| TO | infinitive marker to | |
| UH | interjection, exclamation | |
| VB | verb, base form | |
| VBD | verb, past tense | |
| VBG | verb, present participle/gerund | |
| VBN | verb, past participle | |
| VBZ | verb, 3rd singular present | |
| WDT | wh-determiner | what, which |
| WP$ | possessive wh-pronoun | whose |
| WPO | objective wh-pronoun | whom, which, that |
| WPS | nominative wh-pronoun | who, which, that |
| WQL | wh-qualifier | how |
| WRB | wh-adverb | how, where, when |
Im Zeitraum von 1970 bis 1978 wurde an den Universitäten von Lancaster und Oslo in Zusammenarbeit mit dem Norwegian Computing Centre for the Humanities in Bergen ein dem Brown Korpus entsprechendes Korpus für das britische Englisch zusammengestellt. Dieses wurde nach den Anfangsbuchstaben der involvierten Städte als LOB-Korpus bezeichnet (vergl. Johansson et al., 1978).
Von 1978 bis 1983 wurde das LOB-Korpus mit Wortarten-Tags versehen. Hierzu wurde aufbauend auf dem TAGGIT-Programm der Brown-University ein Constituent-Likelihood Automatic Word-Tagging System (CLAWS) entwickelt. Dieses System wird in Garside et al. (1987) ausführlich beschrieben.
Ausgehend von einem Tag-System mit insgesamt 133 Einträgen werden zunächst jedem Wort eines Textes alle bei isolierter Betrachtung möglichen Tags zugeordnet. Zur Auflösung auftretender Ambiguitäten wird eine Tabelle mit den in einem größeren annotierten Korpus beobachteten Übergangswahrscheinlichkeiten zwischen Paaren von Tags benötigt. Für jedes in einem Satz vorkommende Paar benachbarter Wörter werden mit Hilfe dieser Tabelle alle in Frage kommenden Tag-Übergangswahrscheinlichkeiten ermittelt. Die Wahrscheinlichkeit einer jeden möglichen Tagfolge für die Wörter des gesamten Satzes wird gleichgesetzt mit dem Produkt aller einzelnen Übergangswahrscheinlichkeiten zwischen benachbarten Tags, wobei zusätzlich berücksichtigt wird, mit welcher Wahrscheinlichkeit einem bestimmten Wort ein bestimmtes Tag zugeordnet wird. Für ein bestimmtes Wort wird schließlich dasjenige Tag ausgewählt, für das die Summe der Wahrscheinlichkeiten aller Tagfolgen, die an der betreffenden Position dieses Tag enthalten, maximal ist. Bei der Annotierung unbekannter Texte wird die Quote korrekt mit Tags versehener Wörter von Sampson (Garside et al., 1987, S. 21) mit 96 bis 97% angegeben.
Die zur Annotierung des LOB-Korpus verwendete Anzahl von Tags ist mit 133 beträchtlich größer als die beim Brown-Korpus. Bei der Festlegung der Tags ging es darum, mehr grammatische Unterscheidungen berücksichtigen zu können, dabei aber dennoch die Vergleichbarkeit mit dem Brown-Korpus zu gewährleisten. So werden etwa bei den Substantiven Unterscheidungen bezüglich der Großschreibung gemacht, und die Satzzeichen werden nicht mehr gruppiert, sondern erhalten jeweils eigene Tags.
Während bei CLAWS für die Wortartenzuordnung in der Regel die Übergangswahrscheinlichkeiten zwischen jeweils zwei Tags zugrunde gelegt werden (Bigramm-Modell), schlägt Church (1988) die Verwendung eines Trigramm-Modelles vor, mit dem er Fehlerquoten zwischen 1 und 5% erzielt. Zunächst werden wie bei CLAWS jedem Wort eines zu analysierenden Satzes alle bei isolierter Betrachtung möglichen Tags zugeordnet. Gleichfalls wird dem Brown-Korpus zu jedem Wort/Tag-Paar eine Wahrscheinlichkeit entnommen, die angibt, in wieviel Prozent der Fälle das betrachtete Wort das jeweilige Tag erhalten hat. Diese Prozentzahl wird als ``lexikalische Wahrscheinlichkeit'' bezeichnet. Die Umgebung eines Wortes wird mit der ``kontextuellen Wahrscheinlichkeit'' berücksichtigt (Church, 1988, S. 139):
``The contextual probability, the probability of observing part of speech X given the following two parts of speech Y and Z, is estimated by dividing the trigram frequency XYZ by the bigram frequency YZ. [...] A search is performed to find the assignment of part of speech tags to words that optimizes the product of the lexical and contextual probabilities. Conceptually, the search enumerates all possible assignments of parts of speech to input words [...] and the best sequence is selected.''
Ein weiterer CLAWS-ähnlicher Ansatz zur automatischen Annotierung findet sich in DeRose (1988). Bei dessen VOLSUNGA-System wurden gegenüber CLAWS einige Vereinfachungen vorgenommen, die zu einem optimalen (linearen) Laufzeitverhalten und weniger Speicherplatzbedarf führen. Dennoch konnte - bei einem auf 97 Tags reduzierten Tag-System - die Quote richtig annotierter Wörter bei etwa 96% gehalten werden. DeRose quantifiziert das Maß der Ambiguität der Wörter des Brown-Korpus: Er gibt an, daß etwa 11,5% der Types (Vokabular) und über 40% der Tokens (laufende Wortformen) mehrdeutig sind.
Ein Ansatz, das Annotierungs-Problem mit Neuronalen Netzwerken anzugehen, wird in Benello, Mackie & Anderson (1989) beschrieben. Es handelt sich um ein dreischichtiges Backpropagation-Netzwerk mit insgesamt 560 Zellen. Davon entfallen 236 Zellen auf die Eingabe- und 88 Zellen auf die Ausgabeschicht. In der Ausgabeschicht entspricht jede Zelle einem Tag. In der Eingabeschicht dienen ebenfalls 88 Zellen der Darstellung des Wortes, dessen Wortart bestimmt werden soll, sowie weitere 88 Zellen zur Darstellung seines Nachfolgers. Mit den restlichen 60 Zellen der Eingabeschicht werden die vier Vorgängerworte repräsentiert, allerdings aus Gründen des Rechenaufwandes in verteilter Form mit jeweils nur 15 Zellen pro Wort. Die bei isolierter Betrachtung möglichen Tags werden wie bei den statistischen Systemen einer Liste entnommen. Das Netzwerk wurde mit Sätzen aus dem Brown-Korpus trainiert. Die danach erzielte Trefferquote beim Annotieren neuer Sätze beträgt etwa 95%.
In jüngster Zeit wurden Algorithmen zur Wortartenannotierung angegeben, die mit unbearbeitetem Text trainiert werden können, für die die Übergangswahrscheinlichkeiten zwischen Tags also nicht bekannt sein müssen (Cutting et al., 1992; Merialdo, 1994). Merialdo kommt jedoch zu dem Ergebnis, daß bessere Ergebnisse erzielt werden, wenn die Tag-Übergangswahrscheinlichkeiten auf der Basis größerer annotierter Korpora geschätzt werden können.