Zur Vorhersage von Suchwörtern für das Recherchieren in einer psychologischen Datenbank erschien es sinnvoll, ein domainspezifisches Textkorpus zu verwenden. Zur Bestimmung der Kookkurrenzhäufigkeiten zwischen den Wörtern wurde deshalb ein Korpus mit psychologischen Texten verwendet. Dieses wurde im Umfang von etwa 30 Millionen Wörtern aus den knapp 250 000 Abstracts der Datenbank PsycLIT (Ausgabe 1989) erstellt. Diese stellt alle Einträge der amerikanischen Datenbank PsycINFO, die sich auf Zeitschriftenartikel beziehen, auf CD-ROM zur Verfügung.
Um den Bedarf an Rechenleistung den vorhandenen Geräten anzupassen,
wurden in der Simulation nicht alle im Textkorpus vorkommenden
Wörter berücksichtigt, sondern es wurde mit einem eingeschränkten
Vokabular gearbeitet. Bei der Festlegung des Vokabulares sollten
alle in den Rechercheprotokollen vorkommenden Wörter (ohne die
Befehle der Abfragesprache) berücksichtigt werden. Ein Problem
bestand darin, daß die Problembeschreibungen teilweise
in deutscher Sprache abgefaßt waren. In den Queries, die
im Hinblick auf amerikanische Datenbanken erstellt worden waren,
wurden hingegen überwiegend englische Begriffe verwendet.
Deshalb wurden von Wettler und Ferber (Ferber, Wettler & Rapp,
im Druck) jeweils englische
und deutsche Wörter mit derselben Bedeutung zu einem Begriff zusammengefaßt.
Sofern ein zusammengesetztes deutsches Wort (etwa Sozialarbeit)
durch mehrere englische Wörter übersetzt werden muß (social work),
wurde das deutsche Wort in entsprechender Weise aufgespalten und die
Teilwörter wurden verschiedenen Begriffen zugeordnet.
Da verschiedene Flexionsformen desselben Wortes nicht unterschieden
werden sollten, wurden auch diese mit aufgenommen. Insgesamt wurden
2399 Wortformen auf 872 Begriffe reduziert.
Nachfolgend einige Beispiele:
ABHÄNGIGKEIT DEPENDENCIES DEPENDENCY DEPENDENT INTERDEPENDENCE
ABILITY ABILITIES FÄHIGKEIT FÄHIGKEITEN
ALLEIN ALONE
ALLGEMEIN ALLGEMEINE ALLGEMEINEN ALLGEMEINES COMMON
AND UND
ANTWORT BEANTWORTUNG RESPONSE RESPONSES
ANWENDUNG ANGEWENDET APPLICATION APPLICATIONS APPLIED EINSATZ
ANFALL ANFÄLLE ATTACK ATTACKE ATTACKS INFARKT
AUFGABE AUFGABEN TASK TASKS
BEISPIEL BSP EXAMPLE EXAMPLES