Die maschinelle Generierung von Wörterbüchern aus zweisprachigen Texten
Abstract: Es wird ein statistisch arbeitendes, weitgehend sprachunabhängiges Verfahren vorgestellt, das es ermöglicht, die Rohfassung eines zweisprachigen Wörterbuches automatisch zu erstellen. Als Eingabedaten dienen Texte, die sowohl in der Ursprungssprache als auch in übersetzter Form vorliegen.

Die Vorgehensweise ist hierbei zweistufig: Zunächst wird mit einem rein satzlängenorientierten Algorithmus eine Zuordnung zwischen einander entsprechenden Sätzen vorgenommen, d. h. es werden diejenigen Satzpaare ermittelt, bei denen der eine Satz die Übersetzung des anderen darstellt. Der Prozentsatz richtig zugeordneter Sätze beträgt etwa 98 Prozent.

Im nächsten Schritt wird mit einem iterativen Verfahren eine Wortzuordnung vorgenommen, die jeder einzelnen Wortform der einen Sprache diejenigen Wortformen der anderen Sprache zuordnet, die zu ihrer Übersetzung am häufigsten verwendet wurden. Die Arbeitsweise des verwendeten Algorithmus wird detailliert beschrieben. Welche Ergebnisse zu erwarten sind, wird am Beispiel eines Wörterbuches gezeigt, das auf der Basis von in deutscher und englischer Sprache vorliegenden psychologischen Texten im Umfang von etwa einer Million laufenden Wortformen erstellt wurde.


Paper im Postscript-Format

Home-page FASK
Home-page Reinhard Rapp