CLEF Logo

Cross-Language Evaluation Forum (CLEF)

Mehrsprachiges Retrieval wird in der global vernetzten Welt mehr und mehr zum Standard-Fall, da zum einen weder alle Benutzer englische Anfragen formulieren können, noch alle relevanten Dokumente in einer Sprache vorliegen. Dieser mehrsprachige Aspekt ist weit schwieriger zu evaluieren als die eigentliche Retrieval-Leistung. Zusätzlich spielt die monolinguale Retrieval-Qualität eines Systems in anderen Sprachen und der Übertragungsansatz eine Rolle.
Das Cross-Language Evaluation Forum  (CLEF) wurde im Fünften Rahmenprogramm zur Forschung der EU etabliert. Im Kontext des DELOS Network of Excellence for Digital Libraries wird CLEF in geringem Umfang von der EU-Kommission gefördert. In Kooperation mit TREC wird eine Evaluationsumgebung für mehrsprachiges Information Retrieval aufgebaut und weiterentwickelt, die neben den bereits benutzten Sprachen Englisch, Französisch, Italienisch und Deutsch weitere europäische Sprachen in ein effizientes Testverfahren einbeziehen soll. Beteiligt sind die Universität Hildesheim, das InformationsZentrum Sozialwissenschaften in Bonn, das National Institute of Standards and Technology, Gaithersburg, USA, das Istituto di Elaborazione della Informazione in Pisa und die Eurospider Information Technology AG in Zürich
Die Partner schufen eine mehrsprachiges Korpus, das vollständige Jahrgänge der Washington Post, Corriere della Sera, Frankfurter Rundschau, Spiegel, Neue Zürcher Zeitung etc. umfasst. Jedes Jahr formulieren die Institute Aufgaben in ihrer Landessprache, die mit dieser Datenmenge beantwortet werden können. Die Universität Hildesheim koordiniert diese Arbeit, prüft das formale Format der Aufgaben und kontrolliert die Übersetzungen in die jeweils anderen Sprachen. Fehlerhafte Vorgaben für die Systeme durch sprachliche Unstimmigkeiten sollten ausgeschlossen werden, um eine möglichst objektive Testgrundlage sicherzustellen.
Das Projekt war an der Universität Hildesheim mehrmals in einen Projektkurs im Rahmen des Studiengangs Internationales Informationsmanagement (IIM) eingebettet, so dass sich auch Studierende beteiligen konnten. In 2002 beteiligte sich die Universität Hildesheim mit weltweit vier anderen Gruppen am Retrieval fachwissenschaftlicher Texte, welche neben den Zeitungstexten besondere Herausforderungen stellen. In 2003 nahm die Universität Hildesheim am mehrsprachigen Retrieval mit vier Sprachen teil. Im Jahr 2005 gehörte die Universität Hildesheim zu den drei Gruppen, die am meisten Tracks bearbeitet haben, konnte einige hervorragende mono-linguale Ergebnisse vorlegen und lieferte beim mehrsprachigen Web-Retrieval das beste Ergebnis ab.


Überblick: Universität Hildesheim @ CLEF





CLEF Homepage