CoMaTra

Das Projekt "Corpus-based Machine Translation" untersucht eine Möglichkeit, mittels neuerer korpusbasierter Methoden verbesserte Grundlagen für die maschinelle Übersetzung zu schaffen: die Extraktion von bilingualen Valenzwörterbüchern.

Im CoMaTra-Projekt werden englische und deutsche Originale und Übersetzungen dependenzgrammatisch annotiert. Die Annotationen werden aligniert, wie in der unten stehenden Darstellung gezeigt, und für Experimente zur Extraktion von Valenzwörterbüchern verwendet.

Die Untersuchungen des Projekts konzentrieren sich nicht allein auf die eigentlich Valenzextraktion, sondern auch auf die Problemfälle, die sich dabei ergeben können und in der Folge von Extraktionsalgorithmen behandelt werden müssen. Insbesondere aufgrund von kontrastiven Unterschieden von Sprachen ergeben sich Strukturdifferenzen und semantische Verschiebungen, die eine Extraktion erschweren. Das Projekt zielt darauf ab, einige grundlegende Differenzen zu bennen und beschreiben.

 Alignierung in CoMaTra