Cross-Language
Evaluation Forum (CLEF)
Mehrsprachiges Retrieval wird in der global vernetzten Welt mehr und
mehr zum Standard-Fall, da zum einen weder alle Benutzer englische Anfragen
formulieren können, noch alle relevanten Dokumente in einer Sprache
vorliegen. Dieser mehrsprachige Aspekt ist weit schwieriger zu evaluieren
als die eigentliche Retrieval-Leistung. Zusätzlich spielt die monolinguale
Retrieval-Qualität eines Systems in anderen Sprachen und der Übertragungsansatz
eine Rolle.
Das Cross-Language Evaluation Forum (CLEF) wurde im Fünften
Rahmenprogramm zur Forschung der EU etabliert. Im Kontext des DELOS Network
of Excellence for Digital Libraries wird CLEF in geringem Umfang von der
EU-Kommission gefördert. In Kooperation mit TREC wird eine Evaluationsumgebung
für mehrsprachiges Information Retrieval aufgebaut und weiterentwickelt,
die neben den bereits benutzten Sprachen Englisch, Französisch, Italienisch
und Deutsch weitere europäische Sprachen in ein effizientes Testverfahren
einbeziehen soll. Beteiligt sind die Universität Hildesheim, das InformationsZentrum
Sozialwissenschaften in Bonn, das National Institute of Standards and Technology,
Gaithersburg, USA, das Istituto di Elaborazione della Informazione in Pisa
und die Eurospider Information Technology AG in Zürich
Die Partner schufen eine mehrsprachiges Korpus, das vollständige
Jahrgänge der Washington Post, Corriere della Sera, Frankfurter Rundschau,
Spiegel, Neue Zürcher Zeitung etc. umfasst. Jedes Jahr formulieren die
Institute Aufgaben in ihrer Landessprache, die mit dieser Datenmenge beantwortet
werden können. Die Universität Hildesheim koordiniert diese Arbeit,
prüft das formale Format der Aufgaben und kontrolliert die Übersetzungen
in die jeweils anderen Sprachen. Fehlerhafte Vorgaben für die Systeme
durch sprachliche Unstimmigkeiten sollten ausgeschlossen werden, um eine
möglichst objektive Testgrundlage sicherzustellen.
Das Projekt war an der Universität Hildesheim mehrmals in einen
Projektkurs im Rahmen des Studiengangs Internationales Informationsmanagement
(IIM) eingebettet, so dass sich auch Studierende beteiligen konnten. In
2002 beteiligte sich die Universität Hildesheim mit weltweit vier anderen
Gruppen am Retrieval fachwissenschaftlicher Texte, welche neben den Zeitungstexten
besondere Herausforderungen stellen. In 2003 nahm die Universität Hildesheim
am mehrsprachigen Retrieval mit vier Sprachen teil. Im Jahr 2005 gehörte
die Universität Hildesheim zu den drei Gruppen, die am meisten Tracks
bearbeitet haben, konnte einige hervorragende mono-linguale Ergebnisse vorlegen
und lieferte beim mehrsprachigen Web-Retrieval das beste Ergebnis ab.
Überblick: Universität Hildesheim @ CLEF
- 2002: Erste Teilnahme
- 2002: GIRT monolingual Deutsch: vierbestes System
- 2003: ad-hoc: Bestes Newcomer System für multilingual Task für
viersprachiges Korpus (Englisch, Französisch, Deutsch and Spanisch)
- 2004 ad-hoc: Nur neun Gruppen bearbeiten den mehrsprachigen Task mit
Finnisch, Russisch, Englisch und Französisch. Darunter Hildesheim
- 2005: nur zwei von allen 70 teilnehmenden Gruppen aus fünf Kontinenten
bearbeiten mehr Tracks als die Uni Hildesheim (Question Answering, GIRT,
ad-hoc, Web)
- 2005: Ad-hoc: Monolingual Ungarisch 4ter Platz von 30 runs
- 2005: Ad-hoc: Bi-lingual X-Französisch 3ter von über 40 runs
- 2005: Web track: von zwanzig angemeldeten
Gruppen schaffen nur vier den multilingual Task. Das beste Ergebnis kommt
aus Hildesheim: TOP SCORING TEAM mit
13,7% , der zweite abgeschlagen mit 7,6 %
- Datenumfang: 100 GB Dokument-Daten mit über 25 Sprachen, über
580 Anfragen (Topics)
- 2005: GIRT: bilingual X to DE: 5ter von 15 runs
CLEF Homepage