Die Assoziationen zu allen 95 Problembeschreibungen wurden berechnet und die Rangplätze der darin enthaltenen Wörter sowie der in den Queries verwendeten Suchbegriffe bestimmt.
Zur Evaluierung der Ergebnisse ist es sinnvoll, in Abhängigkeit ihres
Vorkommens in der Problembeschreibung und der zugehörigen Query vier
Klassen von Begriffen zu unterscheiden. In Anlehnung an
Ferber, Wettler & Rapp (im Druck) werden diejenigen Begriffe, die sowohl in
der Problembeschreibung als auch in der Query erscheinen mit
, diejenigen, die weder in der Problembeschreibung noch in der
Query erscheinen mit
gekennzeichnet. Entsprechend
erhalten Begriffe, die entweder nur in der Problembeschreibung oder
nur in der Query vorkommen die Bezeichnungen
bzw.
Bei einem optimalen Verlauf der Simulation sollten diejenigen Begriffe,
die in der Query verwendet wurden, auf den vordersten Rangplätzen
erscheinen, während für alle anderen Begriffe - unabhängig von ihrem
Vorkommen in der Problembeschreibung - eine mehr oder weniger zufällige
Verteilung auf die übrigen Rangplätze zu erwarten ist.
Um das Simulationsergebnis, das durch eine Vielzahl sich ergebender
Rangplätze von Begriffen gekennzeichnet ist, mit Hilfe weniger Kennwerte darstellen zu können,
wurden innerhalb der vier Begriffsklassen die berechneten Rangplätze
über alle 95 Beispiele gemittelt.
Auf diese Weise gehen bei der
Berechnung des Mittelwertes Beispiele mit mehr Wörtern stärker ein
als solche mit wenigen, was gerechtfertigt erscheint.
Die resultierenden Mittelwerte sind in Tabelle
dargestellt.
Dort finden sich auch die in analoger Weise berechneten Mediane.
| | | | |
| Mittelwert | 185,5 | 184,9 | 368,8 |
| Median | 96 | 96 | 384 |
Da Mediane sich dazu eignen, die Auswirkungen einzelner Ausreißer, wie sie durch statistische Schwankungen im Textkorpus, aber auch durch willkürliche Begriffswahl und Fehler der Rechercheure entstehen, zu begrenzen, stellen die Mediane ein sinnvolleres Bewertungskriterium dar als die Mittelwerte.
Sowohl bei Betrachtung der Mittelwerte als auch der Mediane erhalten
diejenigen Wörter aus der Problembeschreibung, die nicht in die Suchfrage
übernommen werden, Rangplätze in der Nähe des Zufallswertes von 872/2.
Hingegen werden denjenigen Begriffen, die in der Suchfrage verwendet werden,
erheblich günstigere Rangplätze zugewiesen, unabhängig davon, ob sie in der
Problembeschreibung verwendet wurden oder nicht. Daß die Werte für den
Median mit 96 und 96
erheblich
besser sind als diejenigen für die Mittelwerte mit 185,5 und 184,9
deutet darauf hin, daß das System bei der überwiegenden Zahl
der Begriffe gute, in einigen Fällen aber sehr schlechte Prognosen macht.
Da es bei der Generierung von Suchbegriffen nicht unbedingt auf
Vollständigkeit ankommt, sondern eher darauf, daß die gefundenen
Suchbegriffe möglichst treffend sind, ist dieses Verhalten aber akzeptabel.
Andere Untersuchungen haben gezeigt, daß auch bei Rechercheuren zwar
oftmals große Unterschiede in der Begriffswahl bestehen, sich die
Retrieval-Ergebnisse aber dennoch ähneln (vergl. Saracevic & Kantor, 1988).
Bei der Beurteilung der Simulationsergebnisse sollten einige Schwierigkeiten berücksichtigt werden, die teils grundsätzlicher Natur, teils auch durch die Implementation bedingt sind:
Aufgrund dieser Vielzahl von Fehlerquellen ist es also nicht realistisch, perfekte Ergebnisse zu erwarten. Eine möglicherweise zweckmäßigere Methode zur Beurteilung der Simulationsergebnisse bestünde darin, unterschiedlichen Rechercheuren sowie dem Simulationsprogramm dieselbe Problemstellung vorzulegen, und nach Durchführung der Recherchen zu untersuchen, ob die Begriffswahl des Programmes stärker von der der Rechercheure abweicht, als sich die von den Rechercheuren gewählten Begriffe untereinander unterscheiden. Entsprechendes experimentelles Material stand jedoch nicht zur Verfügung.