Ein statistischer Ansatz zur maschinellen Erstellung eines syntaktisch orientierten Wortartensystems
Abstract: Es wird ein auf unterschiedliche Sprachen anwendbares statistisches Verfahren vorgestellt, mit dem es auf der Grundlage des gemeinsamen Vorkommens von Wörtern in Texten möglich ist, die Wortformen einer Sprache in syntaktisch orientierte Wortklassen einzuteilen. Dabei soll erreicht werden, daß nur solche Wortformen derselben Wortart angehören, die an allen Auftretensstellen, in der diese Wortart in einem Textkorpus auftritt, eingesetzt werden können, ohne daß die syntaktische Korrektheit der betroffenen Sätze beeinträchtigt wird. Ansatzpunkt für eine solche Einteilung ist die Beobachtung, daß Wortformen, die in Sätzen dieselbe syntaktische Funktion einnehmen können, bei Betrachtung großer Textkorpora in der Regel eine ähnliche Verteilung ihrer Vorgänger- und Nachfolgerwörter aufweisen. Beispielsweise wird maskulinen Substantiven (Nominativ Singular) in der Regel häufig das Wort "der" vorangehen und das Wort "ist" folgen. Die maschinelle Wortklassifizierung wird nun in der Weise vorgenommen, daß Wortformen, die in einem Korpus eine gleichartige Verteilung ihrer direkten Nachbarn aufweisen, derselben Klasse zugewiesen werden. Es zeigt sich, daß die auf diese Weise erzeugten Wortklassen eine hohe Übereinstimmung mit existierenden Wortartensystemen aufweisen. Problematisch ist allerdings die richtige Klassifizierung mehrdeutiger Wortformen.
Paper im Postscript-Format

Home-page FASK
Home-page Reinhard Rapp