SYNTAXPRÜFUNG MITTELS STATISTISCHER WORTARTENANNOTIERUNG
Abstract: Stünde eine vollständige Liste aller in einer Sprache möglichen Sätze zur Verfügung, könnte eine Wortfolge einfach dadurch auf syntaktische Korrektheit überprüft werden, daß ihr Vorkommen in dieser Liste untersucht würde. Allerdings ist es nicht möglich, durch Sammeln von immer mehr Texten zu einer immer vollständigeren Liste von Sätzen zu kommen. Dies hat zwei Ursachen: Zum einen läßt sich keine maximale Satzlänge angeben. Zweitens bringt jeder zusätzlich betrachtete Text meist auch eine Erweiterung des Vokabulares mit sich. Die neu hinzugefügten Wörter ermöglichen aber so viele neue Satzbildungen, daß die Anzahl der tatsächlich hinzugekommenen Sätze weit übertroffen wird. Dadurch wird bei Vergrößerung des Korpus das Verhältnis der Anzahl der theoretisch möglichen zu der Anzahl der tatsächlich vorhandenen Sätze immer ungünstiger.

Dieses Problem kann jedoch umgangen werden, indem anstatt Wortfolgen Folgen von Wortarten betrachtet werden, was für syntaktische Betrachtungen genügt. Hierzu muß der Begriff der Wortart allerdings syntaktisch definiert werden: Ein syntaktisch orientiertes Wortartensystem sollte so beschaffen sein, daß in einem Satz, dessen Wörtern die korrekten Wortarten zugeordnet wurden, ein Wort durch ein beliebiges anderes Wort derselben Wortart ersetzt werden kann, ohne daß die syntaktische Richtigkeit des Satzes beeinträchtigt wird. Im Englischen kann diese Forderung bereits mit einem System von nur 100 Wortarten näherungsweise erfüllt werden. Dieses Wortartensystem hat eine feste Größe und braucht bei einer Vergrößerung des betrachteten Vokabulares nicht erweitert zu werden.

Setzt man ein Maximum for die betrachtete Satzlänge fest, zum Beispiel 30 Wörter, so läßt sich für die Anzahl der möglichen Wortartenfolgen eine obere Schranke von 10^30 angeben. Nur ein kleiner Bruchteil dieser 10^30 konstruierbaren Wortartenfolgen wird jedoch zu syntaktisch richtigen Sätzen führen. Unter der Annahme, daß eine vollständige Liste dieser korrekten Wortartenfolgen existiert, kann die syntaktische Richtigkeit eines unbekannten Satzes dadurch überprüft werden, daß zu jedem Wort des Satzes alle bei isolierter Betrachtung möglichen Wortarten bestimmt und anschließend alle möglichen Folgen dieser Wortarten konstruiert werden. Stimmt mindestens eine dieser Folgen mit einer der Wortartenfolgen in der Liste überein, so ist der Satz syntaktisch korrekt. Gibt es mehrere Übereinstimmungen, so handelt es sich um einen mehrdeutigen Satz.

Der beschriebene Algorithmus kann in dieser Form nur für kurze Sätze (maximal etwa 7 Wörter) eingesetzt werden, da es kaum realisierbar ist, für längere Folgen von Wortarten vollständige Listen der möglichen Abfolgen zu erstellen. Es besteht jedoch die Möglichkeit, häufige Folgen von Wortarten als nur ein Element zu betrachten (etwa die Folge "Artikel-Substantiv"), oder es kann versucht werden, längere Sätze in geeigneter Weise zu zerlegen und ein Matching von Satzteilen durchzuführen.


Paper im Postscript-Format

Home-page FASK
Home-page Reinhard Rapp