Die maschinelle Generierung von Wörterbüchern aus zweisprachigen Texten
Die Vorgehensweise ist hierbei zweistufig: Zunächst wird mit einem rein satzlängenorientierten Algorithmus eine Zuordnung zwischen einander entsprechenden Sätzen vorgenommen, d. h. es werden diejenigen Satzpaare ermittelt, bei denen der eine Satz die Übersetzung des anderen darstellt. Der Prozentsatz richtig zugeordneter Sätze beträgt etwa 98 Prozent.
Im nächsten Schritt wird mit einem iterativen Verfahren eine Wortzuordnung vorgenommen, die jeder einzelnen Wortform der einen Sprache diejenigen Wortformen der anderen Sprache zuordnet, die zu ihrer Übersetzung am häufigsten verwendet wurden. Die Arbeitsweise des verwendeten Algorithmus wird detailliert beschrieben. Welche Ergebnisse zu erwarten sind, wird am Beispiel eines Wörterbuches gezeigt, das auf der Basis von in deutscher und englischer Sprache vorliegenden psychologischen Texten im Umfang von etwa einer Million laufenden Wortformen erstellt wurde.