next up previous contents index
Next: Zusammenfassung und Ausblick Up: Die maschinelle Generierung von Previous: Ergebnisse bei der Satzzordnung

 

Wortzuordnung

Um für die im folgenden behandelte Wortzuordnung eher freie Übersetzungen auszuschließen, ist es zweckmäßig, nur diejenigen Satzzuordnungen zu betrachten, bei denen die Satzlängen um nicht mehr als 25% differieren und bei denen ein Satz des Ausgangstextes genau einem Satz der Übersetzung entspricht. Diese können aus den bei der Satzzuordnung erhaltenen 1:0, 1:1 und 1:2 Zuordnungen ausgefiltert werden. Da in normalem Textmaterial die meisten Zuordnungen vom 1:1-Typ sind (nach Brown et al., 1991, etwa 90%), geht hierdurch nur wenig Textmaterial verloren.

Ausgehend von diesen 1:1-Zuordnungen kann eine sehr einfache Methode angegeben werden, die Übersetzung einer Wortform zu ermitteln: Es werden zunächst alle Sätze gesucht, in denen diese Wortform auftritt und die Häufigkeiten der in den korrespondierenden Sätzen auftretenden Wortformen bestimmt. Zu erwarten ist, daß gebräuchliche Übersetzungen hohe Häufigkeiten aufweisen.

Wird diese Vorgehensweise unter Verwendung der Psyndex-Abstracts auf das Wort ``schnell'' angewandt, ergibt sich die in Tabelle gif dargestellte Liste potentieller Übersetzungen. Das Beispiel zeigt, daß auf diese Art offenbar häufige Funktionswörter, die in fast allen Sätzen vorkommen, die korrekten Übersetzungen von den vordersten Rangplätzen verdrängen. Dieser Effekt kann unterdrückt werden, wenn angenommen wird, daß die Häufigkeit eines Wortes im deutschen Teilkorpus möglichst gleich groß sein sollte wie die Häufigkeit der verwendeten Übersetzung im englischen Teilkorpus. Diese Annahme ist zumindest für Wörter mit eineindeutiger Übersetzung (z. B. Milch - milk) plausibel.

 

Wort Rang Häuf. Übersetzung Korpushäuf.
schnell 1 64 the 83035
2 36 and 43579
3 35 to 22413
4 33 of 66423
5 30 as 8953
6 30 in 31041
7 27 a 22934
8 18 be 5896
9 16 quickly 49
10 14 that 9816
11 11 is 13305
12 11 which 4431
13 10 an 5502
14 9 at 2109
15 9 had 1416
16 9 rapidly 28
17 9 were 6992
18 9 with 11439
19 8 fast 31
20 8 for 12027
Tabelle: Rangfolge der häufigsten Wörter in den englischen Sätzen, die 1:1-Zuordnungen der das Wort schnell enthaltenden deutschen Sätze sind. Die Korpushäufigkeit von schnell im deutschen Teilkorpus ist 47. Die in der Tabelle angegebenen Korpushäufigkeiten beziehen sich auf das Teilkorpus in englischer Sprache.

 

Im folgenden eine präzisere mathematische Formulierung dieser Annahme:

  equation15608

Die einem Übersetzungswort j zugeordnete Aktivität tex2html_wrap_inline24950 hängt damit nicht mehr nur von seiner Auftretenshäufigkeit tex2html_wrap_inline24952 in den relevanten Sätzen ab, sondern auch vom Verhältnis seiner Korpushäufigkeit tex2html_wrap_inline24954 zu der Korpushäufigkeit tex2html_wrap_inline24956 des Stimuluswortes. Je größer der Unterschied in den Häufigkeiten, umso mehr wird die Aktivität reduziert.

 

Wort Rang tex2html_wrap_inline24950 Übersetzung Korpushäuf.
schnell 1 15,35 quickly 49
2 5,36 rapidly 28
3 5,28 fast 31
4 2,89 decide 34
5 2,10 equally 67
6 1,96 frustration 46
7 1,74 speed 135
8 1,68 threshold 56
9 1,62 appeared 87
10 1,62 circle 38
Tabelle: Aktivitätsrangfolge zum Wort schnell bei Begünstigung gleicher Korpushäufigkeiten zwischen Ausgangswort und Übersetzung

 

Bei Verwendung von Formel gif ergibt sich für das Wort schnell die in Tabelle gif gezeigte Aktivitätsrangfolge. Hier finden sich nun auf den vordersten drei Rangplätzen korrekte Übersetzungen. Ähnlich gute Ergebnisse ließen sich vermutlich auch dadurch erzielen, daß berechnet würde, welche Wörter in den zum Auftreten des Originalwortes korrespondierenden Sätzen signifikant häufiger vorkommen als in den übrigen Sätzen. Diese Vorgehensweise wurde jedoch realisiert. Ein anderer Ansatzpunkt ist die Überlegung, daß die Wortpositionen prägnanter Übersetzungen im englischen Text analog verteilt sein sollten wie die Wortpositionen der korrespondierenden Wörter im deutschen Text. Dies ist eine Annahme, wie sie in Abschnitt gif zur Berechnung von Wortassoziationen auch für Stimulus- und Responsewörter gemacht wurde. Die Vorgehensweise bei der Umsetzung in einen Algorithmus wäre demnach entsprechend.

Die bisher geschilderten Verfahren zur Wortzuordnung sind zwar sehr einfach und die Ergebnisse recht verblüffend. Sie weisen aber zwei wesentliche Nachteile auf. Zum einen wird bei der Berechnung der Übersetzungen eines Wortes keinerlei Gebrauch gemacht von etwa schon vorhandenem Wissen über andere Wörter. Ist etwa bekannt, daß es mit it und ist mit is übersetzt wird, so könnte allein auf der Basis des Satzpaares ``es ist grün'' / ``it is green'' die Übersetzung von grün gefunden werden. Solche Vorinformationen werden aber weder gespeichert noch genutzt.

Zum anderen sind bei der Erstellung eines Wörterbuches die Suchvorgänge zum Finden der jeweils relevanten Sätze zeitaufwendig, da sie einen wahlfreien Zugriff auf die Sätze erfordern, der nur mit einem Index oder über eine Sortierung einigermaßen effizient realisiert werden kann. Vom technischen Standpunkt aus wäre es aber wünschenswert, wenn für den Wortzuordnungsalgorithmus ein sequentielles Einlesen der Sätze genügen würde. Beide Probleme löst der im folgenden skizzierte Algorithmus:

  1. Datenstruktur: Jedem Wort des Vokabulares der Ausgangssprache wird eine zunächst leere Liste zugeordnet, die etwa 50 Einträge für potentielle Übersetzungen und diesen zugeordnete Aktivitäten erlaubt.
  2. Ein Satz des deutschen Textes und die zugehörige englische Übersetzung werden eingelesen.
  3. Für jedes Wort im englischen Satz wird eine Aktivität von 1 auf die im deutschen Satz enthaltenen Wörter verteilt, und zwar in der Weise, daß der auf ein deutsches Wort entfallende Aktivitätsanteil proportional zu der zwischen diesen beiden Wörtern bereits vorhandenen Aktivität ist. Dieser Aktivitätsanteil wird zur bereits vorhandenen Aktivität addiert. Sonderfälle:
  4. Falls das Textende noch nicht erreicht ist, zurück zu Punkt 2.

Tabelle gif zeigt anhand eines kleinen Beispieles, wie der Algorithmus arbeitet. Nach dem Einlesen aller Sätze weisen die korrekten Übersetzungen die höchsten Aktivitäten auf.

 

Wort Rang tex2html_wrap_inline24950 Übersetzung Korpushäuf.
schnell 1 14,62 quickly 49
2 8,01 rapidly 28
3 4,09 fast 31
4 1,16 at 2109
5 1,07 total 450
6 1,03 phase 379
7 0,81 item 221
8 0,61 speed 135
9 0,56 success 418
10 0,11 rotating 10
Tabelle: Aktivitätsrangfolge zum Wort schnell bei Verwendung eines Algorithmus mit Aktivitätsverteilung proportional zur bereits bestehenden Aktivität

 

 1. Die deutsch/englischen Satzpaare.

Ausgangstext Übersetzung
1 Hans arbeitet Jack works
2 Hans schläft Jack sleeps
3 sie arbeitet she works
Tabelle: Wortzuordnung mit Hilfe eines auf der Verteilung von Aktivitäten beruhenden Algorithmus.

2. Übersetzungslisten vor dem Einlesen eines Satzpaares.

Hans arbeitet schläft sie

3. Übersetzungslisten nach dem Einlesen von Satzpaar 1.

Hans arbeitet schläft sie
Jack 0,5 Jack 0,5
works 0,5 works 0,5

4. Übersetzungslisten nach dem Einlesen von Satzpaar 2.

Hans arbeitet schläft sie
Jack 1,5 Jack 0,5 sleeps 0,5
works 0,5 works 0,5
sleeps 0,5

5. Übersetzungslisten nach dem Einlesen von Satzpaar 3.

Hans arbeitet schläft sie
Jack 1,5 Jack 0,5 sleeps 0,5 she 0,5
works 0,5 works 1,5
sleeps 0,5 she 0,5

 

 

Wort Rang Akt. Übersetzung
Mann 1 20.95 man
2 8.43 male
3 7.06 men
4 2.98 husband
Stadt 1 22.44 city
2 6.00 town
3 3.79 urban
4 1.44 living
Aufsatz 1 7.27 paper
2 7.03 essay
3 1.83 article
4 1.10 replies
schlecht 1 1.08 poorly
2 1.07 badly
3 1.06 poor
4 1.04 attributions
nahezu 1 26.69 almost
2 12.03 nearly
3 1.13 treated
4 1.09 by
belief 1 7.76 Glauben
2 3.20 Glaube
3 3.08 Glaubens
4 2.06 Auffassung
strong 1 50.04 starke
2 21.03 starken
3 15.94 stark
4 4.02 starker
result 1 102.31 Ergebnis
2 17.53 ergeben
3 13.70 Folge
4 12.12 Resultat
profession 1 18.91 Beruf
2 2.58 Berufstätigkeit
3 2.07 Profession
4 1.05 Berufes
full 1 7.04 voll
2 7.03 volle
3 2.03 vollem
4 1.96 Vollbeschäftigung
Tabelle: Beispiele für automatisch erzeugte Übersetzungen.

 

Der Algorithmus verstärkt also bereits bestehende Verbindungen zwischen Wörtern, hat also die erwünschte Eigenschaft, Wortzuordnungen möglichst oft in derselben Weise vorzunehmen. Durch die Begrenzung der Listenlänge wird verhindert, daß häufigen Funktionswörtern sehr viele Bedeutungen zugewiesen werden. Die Laufzeit ist proportional zur bearbeiteten Textlänge. Zur Ermittlung der Übersetzungen für die 55 289 häufigsten im Psyndex-Abstract-Korpus enthaltenen deutschen Wortformen war auf einer Sun SPARC Station 1 ein Zeitbedarf von etwa sechs Stunden erforderlich. Insbesondere bei kürzeren Texten kann es sinnvoll sein, das Programm mehrfach über den Text laufen zu lassen. Dadurch verlieren die Aktivitätsverteilungen der Anfangsphase, in der die vorgenommenen Zuordnungen noch eher zufällig sind, an Gewicht.

Die für das Wort schnell nach einem Durchgang berechneten Übersetzungen sind in Tabelle gif aufgeführt. Gegenüber Tabelle gif hat sich der Aktivitätsunterschied zwischen den richtigen und den falschen Übersetzungen verdoppelt. Dieses Ergebnis ist typisch. Eine stichprobenartige Auswertung ergab, daß für Wörter, die im Textkorpus ausreichend repräsentiert sind (Korpushäufigkeit > 50), in über 99% der generierten Übersetzungstabellen an erster Stelle eine korrekte Übersetzung steht. Tabelle gif zeigt einige weitere Beispiele.

Bei der Weiterentwicklung des Verfahrens wird es darum gehen, die korrekten von den inkorrekten Übersetzungen noch deutlicher zu trennen, so daß mit Hilfe eines Schwellwertes eine automatische Trennung möglich wird. Von Interesse wäre es auch, die Algorithmen in der Weise zu erweitern, daß anstelle von einzelnen Wörtern Wortpaare oder Wortgruppen betrachtet werden. Damit deuten sich Lösungsmöglichkeiten für Disambiguierungsprobleme  in der Art ``Ball-spielen'' versus ``Ball-tanzen'' an, die bei der maschinellen Übersetzung eine große Rolle spielen.


next up previous contents index
Next: Zusammenfassung und Ausblick Up: Die maschinelle Generierung von Previous: Ergebnisse bei der Satzzordnung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997