Um für die im folgenden behandelte Wortzuordnung eher freie Übersetzungen auszuschließen, ist es zweckmäßig, nur diejenigen Satzzuordnungen zu betrachten, bei denen die Satzlängen um nicht mehr als 25% differieren und bei denen ein Satz des Ausgangstextes genau einem Satz der Übersetzung entspricht. Diese können aus den bei der Satzzuordnung erhaltenen 1:0, 1:1 und 1:2 Zuordnungen ausgefiltert werden. Da in normalem Textmaterial die meisten Zuordnungen vom 1:1-Typ sind (nach Brown et al., 1991, etwa 90%), geht hierdurch nur wenig Textmaterial verloren.
Ausgehend von diesen 1:1-Zuordnungen kann eine sehr einfache Methode angegeben werden, die Übersetzung einer Wortform zu ermitteln: Es werden zunächst alle Sätze gesucht, in denen diese Wortform auftritt und die Häufigkeiten der in den korrespondierenden Sätzen auftretenden Wortformen bestimmt. Zu erwarten ist, daß gebräuchliche Übersetzungen hohe Häufigkeiten aufweisen.
Wird diese Vorgehensweise unter Verwendung der Psyndex-Abstracts
auf das Wort ``schnell'' angewandt, ergibt sich die in
Tabelle
dargestellte Liste potentieller
Übersetzungen. Das Beispiel zeigt, daß auf diese
Art offenbar häufige Funktionswörter, die in fast allen
Sätzen vorkommen, die korrekten Übersetzungen
von den vordersten Rangplätzen verdrängen.
Dieser Effekt kann unterdrückt werden, wenn angenommen
wird, daß die Häufigkeit eines Wortes im
deutschen Teilkorpus möglichst gleich groß sein sollte wie die
Häufigkeit der verwendeten Übersetzung im englischen
Teilkorpus. Diese Annahme ist zumindest für Wörter mit
eineindeutiger Übersetzung (z. B. Milch - milk) plausibel.
| Wort | Rang | Häuf. | Übersetzung | Korpushäuf. |
| schnell | 1 | 64 | the | 83035 |
| 2 | 36 | and | 43579 | |
| 3 | 35 | to | 22413 | |
| 4 | 33 | of | 66423 | |
| 5 | 30 | as | 8953 | |
| 6 | 30 | in | 31041 | |
| 7 | 27 | a | 22934 | |
| 8 | 18 | be | 5896 | |
| 9 | 16 | quickly | 49 | |
| 10 | 14 | that | 9816 | |
| 11 | 11 | is | 13305 | |
| 12 | 11 | which | 4431 | |
| 13 | 10 | an | 5502 | |
| 14 | 9 | at | 2109 | |
| 15 | 9 | had | 1416 | |
| 16 | 9 | rapidly | 28 | |
| 17 | 9 | were | 6992 | |
| 18 | 9 | with | 11439 | |
| 19 | 8 | fast | 31 | |
| 20 | 8 | for | 12027 |
Im folgenden eine präzisere mathematische Formulierung dieser Annahme:
Die einem Übersetzungswort j zugeordnete Aktivität
hängt damit nicht mehr nur von seiner Auftretenshäufigkeit
in den relevanten Sätzen ab, sondern auch vom
Verhältnis seiner Korpushäufigkeit
zu der
Korpushäufigkeit
des Stimuluswortes. Je größer
der Unterschied in den Häufigkeiten, umso mehr wird
die Aktivität reduziert.
| Wort | Rang | | Übersetzung | Korpushäuf. |
| schnell | 1 | 15,35 | quickly | 49 |
| 2 | 5,36 | rapidly | 28 | |
| 3 | 5,28 | fast | 31 | |
| 4 | 2,89 | decide | 34 | |
| 5 | 2,10 | equally | 67 | |
| 6 | 1,96 | frustration | 46 | |
| 7 | 1,74 | speed | 135 | |
| 8 | 1,68 | threshold | 56 | |
| 9 | 1,62 | appeared | 87 | |
| 10 | 1,62 | circle | 38 |
Bei Verwendung von Formel
ergibt sich für das Wort schnell die in
Tabelle
gezeigte Aktivitätsrangfolge.
Hier finden sich nun auf den vordersten drei
Rangplätzen korrekte Übersetzungen.
Ähnlich gute Ergebnisse ließen sich vermutlich auch
dadurch erzielen, daß berechnet würde, welche Wörter
in den zum Auftreten des Originalwortes korrespondierenden
Sätzen signifikant häufiger vorkommen als in den
übrigen Sätzen. Diese Vorgehensweise wurde jedoch
realisiert.
Ein anderer Ansatzpunkt ist die Überlegung, daß
die Wortpositionen prägnanter Übersetzungen im
englischen Text analog verteilt sein sollten wie
die Wortpositionen der korrespondierenden Wörter
im deutschen Text. Dies ist eine Annahme, wie
sie in Abschnitt
zur Berechnung
von Wortassoziationen
auch für Stimulus- und Responsewörter gemacht
wurde. Die Vorgehensweise bei der Umsetzung in einen
Algorithmus wäre demnach entsprechend.
Die bisher geschilderten Verfahren zur Wortzuordnung sind zwar sehr einfach und die Ergebnisse recht verblüffend. Sie weisen aber zwei wesentliche Nachteile auf. Zum einen wird bei der Berechnung der Übersetzungen eines Wortes keinerlei Gebrauch gemacht von etwa schon vorhandenem Wissen über andere Wörter. Ist etwa bekannt, daß es mit it und ist mit is übersetzt wird, so könnte allein auf der Basis des Satzpaares ``es ist grün'' / ``it is green'' die Übersetzung von grün gefunden werden. Solche Vorinformationen werden aber weder gespeichert noch genutzt.
Zum anderen sind bei der Erstellung eines Wörterbuches die Suchvorgänge zum Finden der jeweils relevanten Sätze zeitaufwendig, da sie einen wahlfreien Zugriff auf die Sätze erfordern, der nur mit einem Index oder über eine Sortierung einigermaßen effizient realisiert werden kann. Vom technischen Standpunkt aus wäre es aber wünschenswert, wenn für den Wortzuordnungsalgorithmus ein sequentielles Einlesen der Sätze genügen würde. Beide Probleme löst der im folgenden skizzierte Algorithmus:
Tabelle
zeigt anhand eines kleinen Beispieles,
wie der Algorithmus arbeitet. Nach dem Einlesen aller Sätze weisen
die korrekten Übersetzungen die höchsten Aktivitäten auf.
| Wort | Rang | | Übersetzung | Korpushäuf. |
| schnell | 1 | 14,62 | quickly | 49 |
| 2 | 8,01 | rapidly | 28 | |
| 3 | 4,09 | fast | 31 | |
| 4 | 1,16 | at | 2109 | |
| 5 | 1,07 | total | 450 | |
| 6 | 1,03 | phase | 379 | |
| 7 | 0,81 | item | 221 | |
| 8 | 0,61 | speed | 135 | |
| 9 | 0,56 | success | 418 | |
| 10 | 0,11 | rotating | 10 |
1. Die deutsch/englischen Satzpaare.
| Ausgangstext | Übersetzung | |
| 1 | Hans arbeitet | Jack works |
| 2 | Hans schläft | Jack sleeps |
| 3 | sie arbeitet | she works |
2. Übersetzungslisten vor dem Einlesen eines Satzpaares.
| Hans | arbeitet | schläft | sie | ||||
3. Übersetzungslisten nach dem Einlesen von Satzpaar 1.
| Hans | arbeitet | schläft | sie | ||||
| Jack | 0,5 | Jack | 0,5 | ||||
| works | 0,5 | works | 0,5 | ||||
4. Übersetzungslisten nach dem Einlesen von Satzpaar 2.
| Hans | arbeitet | schläft | sie | ||||
| Jack | 1,5 | Jack | 0,5 | sleeps | 0,5 | ||
| works | 0,5 | works | 0,5 | ||||
| sleeps | 0,5 | ||||||
5. Übersetzungslisten nach dem Einlesen von Satzpaar 3.
| Hans | arbeitet | schläft | sie | ||||
| Jack | 1,5 | Jack | 0,5 | sleeps | 0,5 | she | 0,5 |
| works | 0,5 | works | 1,5 | ||||
| sleeps | 0,5 | she | 0,5 | ||||
| Wort | Rang | Akt. | Übersetzung |
| Mann | 1 | 20.95 | man |
| 2 | 8.43 | male | |
| 3 | 7.06 | men | |
| 4 | 2.98 | husband | |
| Stadt | 1 | 22.44 | city |
| 2 | 6.00 | town | |
| 3 | 3.79 | urban | |
| 4 | 1.44 | living | |
| Aufsatz | 1 | 7.27 | paper |
| 2 | 7.03 | essay | |
| 3 | 1.83 | article | |
| 4 | 1.10 | replies | |
| schlecht | 1 | 1.08 | poorly |
| 2 | 1.07 | badly | |
| 3 | 1.06 | poor | |
| 4 | 1.04 | attributions | |
| nahezu | 1 | 26.69 | almost |
| 2 | 12.03 | nearly | |
| 3 | 1.13 | treated | |
| 4 | 1.09 | by | |
| belief | 1 | 7.76 | Glauben |
| 2 | 3.20 | Glaube | |
| 3 | 3.08 | Glaubens | |
| 4 | 2.06 | Auffassung | |
| strong | 1 | 50.04 | starke |
| 2 | 21.03 | starken | |
| 3 | 15.94 | stark | |
| 4 | 4.02 | starker | |
| result | 1 | 102.31 | Ergebnis |
| 2 | 17.53 | ergeben | |
| 3 | 13.70 | Folge | |
| 4 | 12.12 | Resultat | |
| profession | 1 | 18.91 | Beruf |
| 2 | 2.58 | Berufstätigkeit | |
| 3 | 2.07 | Profession | |
| 4 | 1.05 | Berufes | |
| full | 1 | 7.04 | voll |
| 2 | 7.03 | volle | |
| 3 | 2.03 | vollem | |
| 4 | 1.96 | Vollbeschäftigung |
Der Algorithmus verstärkt also bereits bestehende Verbindungen zwischen Wörtern, hat also die erwünschte Eigenschaft, Wortzuordnungen möglichst oft in derselben Weise vorzunehmen. Durch die Begrenzung der Listenlänge wird verhindert, daß häufigen Funktionswörtern sehr viele Bedeutungen zugewiesen werden. Die Laufzeit ist proportional zur bearbeiteten Textlänge. Zur Ermittlung der Übersetzungen für die 55 289 häufigsten im Psyndex-Abstract-Korpus enthaltenen deutschen Wortformen war auf einer Sun SPARC Station 1 ein Zeitbedarf von etwa sechs Stunden erforderlich. Insbesondere bei kürzeren Texten kann es sinnvoll sein, das Programm mehrfach über den Text laufen zu lassen. Dadurch verlieren die Aktivitätsverteilungen der Anfangsphase, in der die vorgenommenen Zuordnungen noch eher zufällig sind, an Gewicht.
Die für das Wort schnell nach einem Durchgang berechneten
Übersetzungen sind in Tabelle
aufgeführt.
Gegenüber Tabelle
hat sich der
Aktivitätsunterschied zwischen den richtigen und den
falschen Übersetzungen verdoppelt. Dieses Ergebnis
ist typisch. Eine stichprobenartige Auswertung ergab, daß
für Wörter, die im Textkorpus ausreichend repräsentiert sind
(Korpushäufigkeit > 50), in über 99% der generierten
Übersetzungstabellen an erster Stelle eine korrekte
Übersetzung steht. Tabelle
zeigt einige
weitere Beispiele.
Bei der Weiterentwicklung des Verfahrens wird es darum gehen, die korrekten von den inkorrekten Übersetzungen noch deutlicher zu trennen, so daß mit Hilfe eines Schwellwertes eine automatische Trennung möglich wird. Von Interesse wäre es auch, die Algorithmen in der Weise zu erweitern, daß anstelle von einzelnen Wörtern Wortpaare oder Wortgruppen betrachtet werden. Damit deuten sich Lösungsmöglichkeiten für Disambiguierungsprobleme in der Art ``Ball-spielen'' versus ``Ball-tanzen'' an, die bei der maschinellen Übersetzung eine große Rolle spielen.