Dissertationsprojekt:
Tolerantes Information Retrieval
Neuronale Netze als Modell zur Erhöhung der Adaptivität und Flexibilität bei der Informationssuche
Im Mittelpunkt dieser Arbeit steht ein Modell, das sowohl die Adaptivität als auch die Flexibilität von Information Retrieval Systemen verbessert. Information Retrieval Systeme (IRS) nutzen bei der Suche nach Informationen zu einer Benutzeranfrage mathematische Modelle, die weder natürliche Sprachen noch andere kognitive Fähigkeiten des Menschen adäquat modellieren. Da solche Modelle nicht in Sicht sind, müssen andere Möglichkeiten gefunden werden um die Qualität von Information Retrieval Systemen und ihre Anpassung an menschliche zu verbessern. Durch die Verankerung einer lernenden Komponente im Kern eines IR Systems verbindet das hier vorgestellte Modell die menschliche Fähigkeit, die Relevanz eines Textes oder einer Zahlentabelle zu einer Anfrage einzuschätzen, mit den bestehenden mathematischen Modellen. Das Ausnutzen von bereits gefällten Entscheidungen erlaubt die Integration kognitiver Fähigkeiten ohne daß diese vollständig bekannt und modelliert sind. Im Mittelpunkt steht ein neuronales Netz, das die Ähnlichkeitsberechnung auch in einem multimodalen Umfeld erlernen kann.
Information Retrieval, Multimodalität und Heterogenität
Ein wesentliches Bedürfnis im Rahmen der Mensch-Maschine-Interaktion ist die Suche nach Information. Das Finden und die dazu gehörige Speicherung und inhaltliche Erschließung von Textdokumenten gewinnt mit der fortschreitenden Verbreitung des Internet und der steigenden Menge an online bereitstehenden Texten an Bedeutung. Der Begriff Information Retrieval bezieht sich meist auf die Erschließung und das Finden von Texten. Kapitel 2 nimmt eine etwas weitere Sicht ein und bezieht auch Faktenabfragesysteme mit ein, die meist unter dem Begriff Datenbanksysteme behandelt werden.
Bei der inhaltlichen Erschließung analysieren die meisten Systeme kaum Syntax und Semantik. Linguistische Komponenten beschränken sich auf die Ebene der Morphologie zur Reduktion von Wörtern auf ihre Stammformen oder der Analyse von Komposita. Die Repräsentation der Textdokumente enthält Informationen über das Vorkommen und die Häufigkeit von Begriffen in den Texten. So wird eine Beziehung zwischen Texten und Dokumenten in einer Matrix hergestellt. Die Anfrage wird ebenso behandelt, so daß Dokument und Anfrage auf gleicher Ebene repräsentiert sind und verglichen werden können. Praktisch alle IR-Systeme berechnen zwischen Dokument und Anfrage eine Ähnlichkeit auf der Basis vektorieller Ähnlichkeitsfunktionen. Die Auswahl der Ähnlichkeitsfunktion ist heuristisch und beruht auf der Qualität des Gesamtsystems. Die empirische Messung der Qualität in einem realen Umfeld hat im IR hohe Priorität. Gute Ähnlichkeitsfunktionen werden also durch trial-and-error bestimmt, wobei keine kausalen Zusammenhänge zwischen deren Eigenschaften und den Anforderungen des Anwendungsfalles gezogen werden.
Ein weitere Schwäche bestehender IR-Modellle ist die Behandlung von Heterogenität der Informationsobjekte. Mensch-Maschine-Interaktion soll tolerant auf Benutzeraktionen reagieren. Bei der Informationssuche wollen Benutzer häufig verschiedene Modalitäten abfragen, also z.B. Texte, Grafiken und numerische Daten zu ihrem Problem finden. Dazu muß meist das System gewechselt und die Suchbedingung mehrfach formuliert werden, obwohl sich nur eine Nebenbedingung, die Art der gesuchten Information ändert. Selbst bei der reinen Textsuche erfordert die Änderung der Textquelle oft einen Systemwechsel.
Kognitive Modellierung und Neuronale Netze
Die Ähnlichkeitsbestimmung im IR versucht nicht, auf der menschlichen Ähnlichkeitswahrnehmung aufzusetzen, sondern geht von mathematischen Modellen aus. Dies liegt natürlich vor allem daran, daß über die kognitive Informationsverarbeitung noch nicht genügend Kenntnisse vorliegen. Auch die behandelten Informationsobjekte können nicht restriktionsfrei analysiert werden, da noch keine vollständige formale Erfassung natürlicher Sprache möglich ist.
Um IR-Systeme kognitiv angemessen zu verbessern und an den Menschen anzupassen, müssen also andere Wege gewählt werden. In dieser Arbeit werden lernende neuronale Netze eingesetzt, um menschliche Entscheidungen zu modellieren. Der empirisch zugängliche Ausdruck der kognitiven Fähigkeiten und nicht ihre interne Struktur wird somit Gegenstand der Untersuchung.
Neuronale Netze sind ein erfolgreiches Paradigma zur Informationsverarbeitung, das von der parallelen Informationsverarbeitung in Gehirn motiviert ist. Neuronale Netze zeichnen aus sich durch Fehlertoleranz, Effizienz und die Fähigkeit zur vagen Verarbeitung von Informationen. Sie eigenen sich besonders für die Verarbeitung komplexer Muster und gliedern sich in das Paradigma "Soft Computing" ein. Weiche Informationsverarbeitung bezieht sich Verfahren, die ohne exakte Modellierung eines Gegenstandbereiches auskommen. Diese ist oft wegen hoher Komplexität oder inhärenter Vagheit nicht möglich. "Soft Computing" erlaubt es, entweder modellfrei oder mit bewußt unexakten Modellen zu arbeiten. Diese Vagheit bietet sich gerade im IR an, wo der Gegenstandsbereich einer exakten Modellierung nicht zugänglich ist.
Das COSIMIR-Modell
Zahlreiche IR Modelle basieren bereits auf neuronalen Netzen, jedoch reagieren sie nur unzureichend auf die oben aufgeführten Schwächen. Das in dieser Arbeit vorgestellte COSIMIR-Modell (Cognitive Similarity learning in Information Retrieval) ist ein neuronales Netzwerk, das auf dem Backpropagation-Algorithmus beruht. Es lernt, die Ähnlichkeit zwischen Anfrage und Dokument zu berechnen, und vermeidet so die heuristische Auswahl der Ähnlichkeitsfunktion. Dadurch trägt es die kognitive Modellierung in den Kern des Information Retrieval.
COSIMIR ist tolerant gegenüber heterogenen Repräsentationen und damit heterogenen Informationsobjekten. Es ermöglicht also multimodales IR und bietet einige weitere interessante Erweiterungsmöglichkeiten.
Empirische Evaluierung
Erst die Evaluierung in einem möglichst realistischen Kontext zeigt die Qualität eines IR Systems. In den letzten Jahren hat sich TREC (Text Retrieval Conference) als Standard-Meßlatte etabliert. TREC ist eine Initiative des National Institute of Standardization (NIST), das eine sehr große Kollektion von Texten, Anfragen und Relevanzbewertungen anbietet, mit der IR-Syteme experimentieren können. Die Ergebnisse werden am NIST nach standardisierten Verfahren analysiert und verglichen. Durch die Vergleichbarkeit und seine Größe stellt TREC bisherige Evaluierungsstudien in den Schatten. Hat eine Evaluierung außerhalb des TREC-Kontexts noch einen Wert?
TREC kann als wichtigster Test für die Qualität eines IR-Verfahrens gelten, dem sich auch COIMIR unterziehen müßte. Der Aufwand für eine Teilnahme ist jedoch sehr hoch, was zwei Folgen für diese Arbeit hat. Erstens würde ein Test mit TREC den Rahmen der Arbeit sprengen und zweitens müssen vor einem solchen aufwendigem Test mehrere Vortests stehen, die die prinzipielle Adäquatheit des Ansatzes prüfen. Solche Tests wurden durchgeführt und ergaben durchaus ermutigende Ergebnisse.
Die Datenbasis stammt aus zwei Projekten, aus denen diese Arbeit entstand.
Im Rahmen von ELVIRA wurde das COSIMIR-Modell (COgnitive SIMilarity Learning in Information Retrieval) entwickelt, das sich für Transformationen eignet. Es implementiert auf einfache Weise den zentralen Prozeß eines IR-Systems in einem Backpropagation Netz. Die Bestimmung der Ähnlichkeit zwischen Anfrage und Dokument wird in COSIMIR anhand von Benutzerurteilen gelernt. Die in IR-Systemen notwendige heuristische Auswahl einer Ähnlichkeitsfunktion entfällt dadurch. Die komplexe menschliche Ähnlichkeitsbeurteilung kann so besser angenähert werden.