next up previous contents index
Next: Dynamische Programmierung Up: Satzzuordnung für lange Texte Previous: Satzzuordnung für lange Texte

Texte mit Vorsegmentierung

Für die Sprachen Deutsch und Englisch stand nur ein größeres paralleles Korpus zur Verfügung, nämlich die psychologische Datenbank Psyndex, deren Abstracts teilweise zweisprachig vorlagen. Dadurch war eine gute Vorsegmentierung gegeben, die es nicht erforderlich machte, einen auch für sehr lange Texte brauchbaren Algorithmus wie die im folgenden Abschnitt beschriebene dynamische Programmierung  zu implementieren.

Da einige der Abstracts aber eine Länge von deutlich mehr als 15 Sätzen hatten, wurde der bislang beschriebene Algorithmus in einfacher Weise erweitert: Zunächst wird die optimale Zuordnung für die ersten zehn Sätze des Ausgangstextes ermittelt. In diesem Falle ist die Anzahl der zuzuordnenden Sätze nicht festgelegt. Da jedem Satz aus dem Ausgangstext maximal zwei Sätze der Übersetzung zugeordnet werden können, müssen zum Erreichen des Optimums alle Zuordnungsmöglichkeiten mit Quersumme kleiner als 21 betrachtet werden.

Von den so ermittelten Zuordnungen für die ersten zehn Sätze werden alle mit Ausnahme der für den ersten Satz als nur vorläufig angesehen. Die Zuordnung für den ersten Satz stellt hingegen das erste Teilergebnis dar und wird in eine Ergebnisdatei übernommen. Dem ersten Satz des Ausgangstextes seien n Sätze (n = 0, 1 oder 2) aus der Übersetzung zugeordnet worden. Als nächstes wird die optimale Zuordnung für die Sätze 2 bis 11 des Ausgangstextes ermittelt, wobei die Sätze n+1 bis n+20 der Übersetzung als mögliche Zuordnungs-Kandidaten betrachtet werden.

Die gefundene Zuordnung für Satz 2 des Ausgangstextes wird wiederum in die Ergebnisdatei übernommen. Satz tex2html_wrap_inline24750 seien m Sätze aus der Übersetzung zugeordnet worden. Entsprechend werden im nächsten Schritt den Sätzen 3 bis 12 des Ausgangstextes Sätze aus dem Bereich n + m + 1 bis n + m + 20 der Übersetzung zugeordnet. Dieser Vorgang wird wiederholt, bis das Textende erreicht ist.

Die Laufzeit des in dieser Weise erweiterten Algorithmus ist proportional zur Textlänge. Dieses sehr günstige Verhalten wird allerdings damit erkauft, daß die gefundenen Zuordnungen lediglich lokal, nicht unbedingt aber global optimal sind. Bei ungünstiger Konstellation kann es sogar passieren, daß der Algorithmus ``außer Tritt'' gerät und völlig falsche Zuordnungen berechnet. Dieser Fall tritt insbesondere dann auf, wenn in Ausgangstext oder Übersetzung einzelne Textpassagen fehlen.

Die Gefahr solcher Fehlzuordnungen wächst mit zunehmender Anzahl betrachteter Sätze. Deshalb ist es sinnvoll, eine fast immer vorhandene parallele Vorsegmentierung von Ausgangstext und Übersetzung zu nutzen und den Zuordnungsprozeß hierarchisch zu strukturieren. Hierbei macht man sich zunutze, daß der beschriebene Zuordnungsalgorithmus nicht nur auf Sätze, sondern gleichermaßen auf andere textuelle Einheiten, beispielsweise Absätze oder Kapitel, anwendbar ist. Bei einem Buch könnte eine hierarchische Vorgehensweise also darin bestehen, den Zuordnungsalgorithmus zunächst auf Kapitel, dann auf Absätze und schließlich auf Sätze anzuwenden.


next up previous contents index
Next: Dynamische Programmierung Up: Satzzuordnung für lange Texte Previous: Satzzuordnung für lange Texte

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997