In diesem Abschnitt wird eine Möglichkeit skizziert, wie mit Hilfe zweier Tagger das Problem der maschinellen Übersetzung angegangen werden kann. Ausgangspunkt sei ein satzweise arbeitendes Übersetzungssystem, etwa für das Sprachpaar deutsch/englisch. Ein solches System basiert auf einer Satzdatenbank, die möglichst viele deutsch/englische Satzpaare enthält. Der Übersetzungsvorgang erfolgt in der Weise, daß der zu übersetzende Satz in der Datenbank gesucht und die zugehörige Übersetzung abgerufen wird. Das Problem solcher Systeme liegt darin, daß eine Datenbank in realisierbarer Größenordnung nur einen winzigen Bruchteil aller in einer Sprache möglichen Sätze enthalten kann, und daher nur sehr wenige Sätze übersetzt werden können.
Um in der Datenbank nicht enthaltene Sätze wenigstens näherungsweise
übersetzen zu können, wird oftmals das sogenannte Fuzzy-Matching
eingesetzt: Aus der Datenbank wird derjenige Satz ausgewählt,
der dem zu übersetzenden am ähnlichsten ist, und die zugehörige
Übersetzung wird als Ausgangsbasis für einen interaktiven
Editiervorgang verwendet. Zur Messung der Ähnlichkeit
zweier Sätze sind unterschiedliche Methoden denkbar: Eine einfache
Möglichkeit besteht darin, die Anzahl übereinstimmender
Wortpositionen zu zählen. Mehr Rechenaufwand benötigen
kompliziertere Verfahren, etwa das Zählen der übereinstimmenden
Worttripel (vergl. Kapitel
, wo ein auf Buchstabenebene
operierender Algorithmus für die Messung von Wortähnlichkeiten
verwendet wurde).
Mit der Verfügbarkeit brauchbarer Tagger wird es möglich, das Matching nicht auf Wörter, sondern auf Wortarten zu beziehen. Unter der Annahme, daß die Datenbank im wortorientierten System das Satzpaar
enthält (hier versehen mit Markierungen zur Wortzuordnung), so wird dieses in einem wortartenorientierten System durch die Wortartenfolge
ersetzt. (Die in diesem Beispiel gewählten Grundwortarten dienen nur der Veranschaulichung. Ein praktisches System würde detailliertere, syntaktisch orientierte Wortartenangaben erfordern).
Soll nun etwa der Satz ``dann bezahlte er das Essen'' übersetzt werden, so wird dieser zunächst mit dem deutschen Tagger in die Wortartenfolge ``Adverb Verb Pronomen Artikel Substantiv'' umgesetzt. Eine Anfrage in der Datenbank ergibt nun, daß sich zur Übersetzung dieser Wortartenfolge die Wortartenfolge ``adverb pronoun verb article noun'' eignet. Die Datenbank liefert zwei Arten von Informationen: Zum einen, durch welche Wortart der Zielsprache jede Wortform des Ausgangssatzes übersetzt werden muß. Und zum anderen, in welcher Reihenfolge die Wörter der Zielsprache anzuordnen sind.
Die Erstellung einer umfangreichen Datenbank mit wortartkodierten
Satzpaaren kann unter Einsatz einiger in dieser Arbeit beschriebener
Verfahren weitgehend maschinell vor sich gehen. In Kapitel
wurde gezeigt, wie aus zweisprachig
vorliegenden Texten Satzpaare extrahiert werden können.
Auf der Grundlage der mit dem Wörterbuchgenerator erstellten
Wortübersetzungslisten können die benötigten Markierungen
zur Wortzuordnung einfach dadurch gewonnen werden, daß
jedem Wort eines Ausgangssatzes nach Möglichkeit dasjenige Wort des übersetzten
Satzes zugewiesen wird, das in der Wortübersetzungsliste des
betrachteten Wortes den niedrigsten Rangplatz einnimmt.
Anschließend werden den in den miteinander korrespondierenden
Satzpaaren enthaltenen Wörtern mit Hilfe zweier Tagger
ihre Wortarten zugeordnet.