Wort-Kookkurrenzen als Grundlage eines Algorithmus zur Terminologieextraktion
Abstract: Dolmetscher und Übersetzer müssen sich immer wieder in neue Sachgebiete einarbeiten, damit Fachbegriffe korrekt übersetzt werden können. Hierzu lesen sie in der Regel eine Anzahl von Aufsätzen des entsprechenden Fachgebietes in der relevanten Sprache und erstellen Terminologielisten. In den seltensten Fällen sind diese Texte in paralleler Form, d.h. Original und Übersetzung liegen gemeinsam vor, verfügbar. Dennoch ist der Übersetzer und Dometscher in der Lage, Begriffszuordnungen vorzunehmen, die die eigene Übersetzungsarbeit unterstützen, jedoch zeit- und kostenintensiv sind.

Um ihnen die Arbeit zu erleichtern, wäre ein Programm wünschenswert, das in der Lage ist, auf der Basis thematisch vergleichbarer, aber nicht paralleler Texte, Rückschlüsse auf die Übersetzungen der Wörter zu ziehen. Bisherige Programme, die der Ermittlung der Übersetzungen von Wörtern dienen, basieren allerdings auf Algorithmen, die parallele Texte erfordern, welche häufig nicht oder nur schwer in ausreichendem Maße besorgt werden können.

Der im folgenden vorgestellte rein assoziative Ansatz kommt ohne parallele Texte aus und beruht auf der Annahme, daß sich die Kookkurrenzen von Wörtern in unterschiedlichen Sprachen ähneln bzw., daß sich ebenfalls auch die Assoziationen nicht unterscheiden. Wenn also in einem Text der einen Sprache zwei Wörter A und B häufig gemeinsam vorkommen, dann sollten in einem Text der anderen Sprache die Übersetzungen von A und B ebenfalls häufig zusammen auftreten. Werden etwa in einem deutschen Text die Wörter "Lehrer" und "Schule" besonders häufig im selben Satz verwendet, so ist zu erwarten, daß auch in einem englischen Text die Wörter "teacher" und "school" häufig zusammen vorkommen.

Paper im Postscript-Format


Home-page FASK
Home-page Reinhard Rapp