Die Ergebnisse vieler textstatistischer Analysen lassen sich am einfachsten in Form von Vektoren bzw. zwei- oder mehrdimensionalen Matrizen speichern. Beispielsweise werden Worthäufigkeiten in Vektoren und Kookkurrenzen in zweidimensionalen Matrizen abgelegt. Bei den die Aufeinanderfolge von Wörtern betreffenden bedingten Wahrscheinlichkeiten hängt die Dimensionalität von der Länge der betrachteten Wortketten ab. Für Tupel benötigt man eine zweidimensionale, für Tripel hingegen eine dreidimensionale Matrix. Typisch für diese Matrizen ist, daß die meisten ihrer Einträge Null sind, da in korrekten sprachlichen Äußerungen nur ein kleiner Bruchteil aller theoretisch möglichen Wortfolgen erlaubt ist.
Deshalb ist es nicht sinnvoll, etwa die Häufigkeiten
aller Worttripel eines größeren Textkorpus tatsächlich in
einer dreidimensionalen Matrix abzuspeichern.
Umfaßt der in einem Korpus von 1 000 000
Wörtern enthaltene Wortschatz beispielsweise 100 000 Wörter,
so hätte die zugehörige Matrix eine Größe von
100 000
10
Einträgen.
Tatsächlich kann ein Korpus dieser Größe nicht mehr
als 999 998 unterschiedliche Worttripel enthalten.
Werden also nur die Häufigkeiten von Worttripeln mit
Korpushäufigkeiten größer Null gespeichert, so genügt
eine vergleichsweise kleine Tabelle mit maximal 999 998
Einträgen.
Zur Erstellung einer solchen Tabelle hat sich die folgende Vorgehensweise bewährt:
In der entstandenen Tabelle können die Häufigkeiten von Worttripeln dadurch bestimmt werden, daß das interessierende Worttripel mit einer Binärsuche lokalisiert und der zugehörige Häufigkeitseintrag abgelesen wird.