Rezension von Ruge, Gerda: Wortbedeutung und Termassoziation. Methoden zur automatischen semantischen Klassifikation (Hildesheim, Olms 1995)
Abstract: Das Buch stellt ein von der Autorin entwickeltes maschinelles Verfahren vor, das es ausgehend von einem größeren Textkorpus erlaubt, die zu einem Wort semantisch verwandten Begriffe automatisch zu identifizieren. Hintergrund der Arbeit ist das Information Retrieval, also die stichwortorientierte Suche in Textdatenbanken. Um bei der Dokumentsuche einen möglichst hohen Recall, d. h. größtmögliche Vollständigkeit zu erreichen, sollten in einer Datenbankanfrage alle für die jeweilige Themenstellung relevanten Begriffe verwendet werden. Zwar fällt es Rechercheuren in der Regel leicht, einige naheliegende Suchbegriffe anzugeben, erfahrungsgemäß werden aber häufig weitere, ebenfalls relevante Begriffe vergessen. Hier soll das System Hilfestellung leisten, indem es zu jedem vorgegebenen Begriff Synonyme und verwandte Begriffe aufzählt, aus denen der Rechercheur interaktiv eine Auswahl treffen kann.

Bisher wurden für solche Zwecke Thesauri verwendet. Ein korpusgestütztes automatisches System zur semantischen Klassifikation hat jedoch den Vorteil, daß es sich der zugrundegelegten Textsorte anpaßt und eine größere Vollständigkeit erreicht. Zudem kann es als Hilfsmittel zur Thesauruskonstruktion verwendet werden.

Der von der Autorin verwendete Ansatz beruht auf der Beobachtung, daß semantisch verwandte Begriffe häufig zur näheren Beschreibung derselben Objekte verwendet werden, bzw. daß umgekehrt semantisch verwandte Begriffe häufig durch ähnliche Eigenschaften charakterisiert werden. So könnte man etwa eine semantische Verwandtschaft der beiden Wörter "rot" und "blau" dadurch ableiten, daß beide häufig zur näheren Bestimmung von Begriffen wie "Farbe", "Blume", "Lackierung", "Kleid", "Auto" etc. verwendet werden, bzw. daß beide ihrerseits durch ähnliche Begriffe beschrieben werden, beispielsweise durch "hell", "dunkel", "leuchtend", "schön" usw.

Der von der Autorin angegebene Algorithmus arbeitet wie folgt: Ein Textkorpus wird zunächst syntaktisch analysiert, um die Abhängigkeitsbeziehungen zwischen den Wörtern eines Satzes zu bestimmen. Sodann wird jedem Wort im Korpus eine Liste derjenigen Wörter zugeordnet, die zu ihm an irgend einer Stelle im Text in Beziehung stehen. Solche Wörter, deren Wortlisten eine hohe Übereinstimmung aufweisen, werden als semantisch verwandt betrachtet.




Home-page FASK
Home-page Reinhard Rapp