Wortartenorientierte Suche in Translation Memories
ABSTRACT: Translation Memories (Übersetzungsspeicher) sind Übersetzungswerkzeuge, mit denen die wiederholte Übersetzung gleichartiger Texte vereinfacht wird. Ihre Funktion beruht darauf, daß jeder einmal übersetzte Satz zusammen mit seiner Übersetzung in einer Datenbank gespeichert wird. Beim Übersetzen weiterer Texte wird vom Rechner Satz für Satz überprüft, ob der betreffende Satz im Translation Memory bereits vorhanden ist. Ist dies der Fall, so kann die vorgefundene Übersetzung direkt übernommen werden. Auf diese Weise wird erreicht, daß jeder Satz einer Ausgangssprache vom Übersetzer in der Regel nur ein einziges Mal in die Zielsprache übersetzt werden muß. Allerdings wiederholen sich Sätze in realen Texten nur selten. Beispielsweise treten von den etwa 40 000 Sätzen im amerikanischen Brown-Korpus lediglich 318 öfter als einmal auf. Aus diesem Grunde wird in modernen Translation Memories nicht nur nach identischen, sondern auch nach ähnlichen Sätzen gesucht ( fuzzy matching ). Entsprechend der Abweichung des gefundenen vom gesuchten Satz ist die vorgefundene Übersetzung dann zwar nicht optimal und muß korrigiert werden. Gegenüber einer Neueingabe ergibt sich aber meist dennoch eine Zeitersparnis.

Die Suchmechanismen aller derzeit verfügbaren Translation Memories beruhen ausschließlich auf dem Vergleich der orthographischen Ähnlichkeiten der betrachteten Sätze. In der vorliegenden Arbeit soll nun gezeigt werden, daß es zweckmäßiger ist, anstatt auf orthographische Ähnlichkeiten auf Wortarteninformationen, wie sie beispielsweise von Programmen zur statistischen Wortartenannotierung bereitgestellt werden, zurückzugreifen. Gelingt es nämlich, jedem in den Satzpaaren des Translation Memory vorkommenden Wort mit Hilfe einer automatischen Methode die im jeweiligen Kontext korrekte Wortart zuzuordnen, so könnte der Suchmechanismus anstatt auf Wörter auf Wortarten angewandt werden. Da es sehr viel weniger Wortarten als Wörter gibt, wäre die Chance, eine hohe Übereinstimmung zu finden, erheblich größer.

Enthielte beispielsweise das Translation Memory das Satzpaar "später kaufte er das Auto" / "later he bought the car" mit den zugehörigen Wortarten- und Wortzuordnungsinformationen, so können hieraus Rückschlüsse auf die Übersetzung des Satzes "dann bezahlte sie die Lampe" gezogen werden, obwohl dieser keinerlei orthographische Ähnlichkeit aufweist. Aus der übereinstimmenden Wortartenfolge der beiden deutschen Ausgangssätze kann nämlich in der Regel auch auf eine übereinstimmende Wortartenfolge bei den zugehörigen englischen Übersetzungen geschlossen werden. Der Übersetzungsvorgang reduziert sich damit auf den bloßen Austausch von Wort-übersetzungen unter Zuhilfenahme eines elektronischen Wörterbuches sowie einer Komponente zur semantischen Disambiguierung.




Home-page FASK
Home-page Reinhard Rapp