next up previous contents index
Next: Anhang C: Ein syntaktisch Up: No Title Previous: Assoziationen zu Paarstimuli in

 

Anhang C: Wortendungen  als Prediktoren für Wortarten

 

Im Zusammenhang mit der maschinellen Wortartenannotierung (s. Kapitel gif) wurde untersucht, inwieweit sich die Endungen unbekannter Wörter zur Vorhersage der Wortart eignen. Diese Arbeit wurde von Wolfgang Lezius unter Zuhilfenahme des Morphologieprogrammes Morphy  durchgeführt (Lezius, 1992; Stammbauer, 1993). Tabelle gif zeigt, wie viele Wörter einer bestimmten Endung welchen Grundwortarten zugehören. Der Statistik liegt das etwa 100 000 verschiedene Wortformen umfassenden Vokabular (15 000 Stämme) von Morphy Version 1.1 zugrunde, das allerdings nach opportunistischen Gesichtspunkten gesammelt wurde und keinen Anspruch auf Repräsentativität erhebt. Die verwendete Endungsliste ist eine überarbeitete Fassung der Suffixliste  des Deutschen von Gerhard Augst (Augst, 1975). Wörter, deren Endungen mit mehreren Suffixen übereinstimmen, gehen in die Statistik mehrfach ein (beispielsweise stimmt gingst sowohl mit der Endung ``t'' als auch mit der Endung ``st'' überein). Mit Hilfe dieser Tabelle ist Morphy in der Lage, allein auf Grund einer Endungsanalyse etwa 85% der im Vokabular nicht enthaltenen Wörter eines Textes die korrekte Wortart zuzuordnen. Zu einem unbekannten Wort wird diejenige Wortart prognostiziert, die für die längste passende Endung die höchste Häufigkeit aufweist.

 

Nr. Endung Sub- Verb Ad- Arti- Par- Pro-
stantiv jektiv kel tikel nomen
1 bar 10 0 6 0 2 0
2 bare 0 1 11 0 0 0
3 barem 0 0 5 0 0 0
4 baren 0 1 11 0 0 0
5 bares 0 0 9 0 0 0
6 chen 858 284 344 0 6 9
7 chens 46 0 0 0 0 0
8 d 1708 689 653 0 14 4
9 e 14496 2535 3711 2 28 39
10 ei 200 0 0 0 4 2
11 eien 43 5 0 0 0 0
12 el 1010 12 8 0 0 0
13 elei 6 0 0 0 0 0
14 eleien 0 0 0 0 0 0
15 eln 322 74 1 0 0 0
16 els 208 0 0 0 4 0
17 em 305 0 1061 2 11 20
18 en 19329 5069 4517 2 41 53
19 er 4303 0 2042 2 48 292
20 erchen 0 0 0 0 0 0
21 erchens 0 0 0 0 0 0
22 ere 111 97 236 0 1 4
23 erem 0 0 71 0 0 2
24 eren 121 161 216 0 0 3
25 erer 2 0 97 0 0 3
26 eres 9 0 140 0 0 1
27 ern 1594 91 3 0 2 0
28 es 2908 12 1926 2 0 279
29 est 144 94 0 0 1 0
30 este 67 0 55 0 0 0
31 estem 0 0 9 0 0 0
32 esten 51 1 72 0 0 0
33 ester 35 0 25 0 0 0
34 estes 20 0 9 0 0 0
35 et 117 415 174 0 2 0
36 ete 99 173 160 0 0 0
37 eten 127 190 171 0 0 0
38 etest 2 2 0 0 0 0
Tabelle: Verteilung häufiger Wortendungen auf die Grundwortarten. Grundlage ist das etwa 15 000 Grundformen umfassende Vokabular von Morphy Version 1.1.

 

 

Nr. Endung Sub- Verb Ad- Arti- Par- Pro-
stantiv jektiv kel tikel nomen
39 haft 623 0 1 0 0 0
40 haftem 0 0 0 0 0 0
41 haften 225 4 2 0 0 0
42 hafter 4 0 1 0 0 0
43 haftes 0 0 2 0 0 0
44 heit 318 0 0 0 0 0
45 heiten 120 0 0 0 0 0
46 icht 433 47 11 0 2 0
47 ien 507 15 6 0 0 0
48 ig 30 0 85 0 5 0
49 ige 39 42 115 0 0 4
50 igem 0 0 61 0 0 0
51 igen 95 83 118 0 0 8
52 iger 0 0 86 0 1 1
53 iges 0 0 100 0 0 0
54 isch 88 0 101 0 0 0
55 ische 46 1 132 0 0 0
56 ischem 0 0 63 0 0 0
57 ischen 38 2 126 0 2 0
58 ischer 5 0 89 0 0 0
59 isches 18 0 106 0 0 0
60 keit 466 0 0 0 0 0
61 keiten 278 0 0 0 0 0
62 lein 0 0 0 0 0 0
63 leins 0 0 0 0 0 0
64 lich 0 7 107 0 34 0
65 liche 2 6 145 0 0 2
66 lichem 0 0 81 0 0 1
67 lichen 2 21 147 0 0 2
68 licher 0 0 92 0 0 2
69 liches 0 0 124 0 0 2
70 ling 0 0 0 0 0 0
71 linge 0 2 0 0 0 0
72 lings 0 0 0 0 0 0
73 los 239 0 0 0 0 0
74 lose 222 0 0 0 0 0
75 losem 0 0 0 0 0 0
76 losen 237 0 0 0 0 0
Tabelle: Verteilung häufiger Wortendungen auf die Grundwortarten (Fortsetzung).

 

 

Nr. Endung Sub- Verb Ad- Arti- Par- Pro-
stantiv jektiv kel tikel nomen
77 loser 0 0 0 0 0 0
78 loses 76 0 0 0 0 0
79 n 23557 5262 4542 2 95 61
80 nen 1299 185 565 0 2 7
81 ner 190 0 301 0 2 7
82 ners 31 0 0 0 0 0
83 nis 286 0 0 0 0 0
84 ns 1169 0 0 0 10 0
85 s 9268 23 1926 2 82 33
86 sam 0 0 7 0 0 0
87 same 0 0 9 0 0 0
88 samen 0 0 9 0 0 0
89 samer 0 0 6 0 0 0
90 sames 0 0 7 0 0 0
91 se 1569 82 10 0 5 2
92 sel 161 0 0 0 0 0
93 sen 1364 267 120 0 2 5
94 ses 435 0 5 0 0 2
95 st 755 360 19 0 19 2
96 ste 311 19 293 0 0 0
97 stem 204 0 49 0 0 0
98 sten 326 28 305 0 2 0
99 ster 311 0 102 0 0 0
100 stes 111 0 73 0 0 0
101 t 7112 2680 1137 0 69 2
102 ta 16 0 0 0 0 0
103 te 2510 1199 1335 0 3 0
104 tem 205 0 321 0 0 0
105 ten 3765 1405 1448 0 6 0
106 ter 1246 0 681 0 8 3
107 tes 746 0 576 0 0 0
108 test 56 50 0 0 0 0
109 tet 0 185 101 0 2 0
110 tum 66 0 0 0 0 0
111 ung 4545 0 0 0 0 0
112 ungen 2408 28 28 0 0 0
113 zig 0 0 1 0 0 0
Tabelle: Verteilung häufiger Wortendungen auf die Grundwortarten (Fortsetzung).

 


next up previous contents index
Next: Anhang C: Ein syntaktisch Up: No Title Previous: Assoziationen zu Paarstimuli in

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997