Projekt
AQUAINT
Automatic Quality
Assessment for Internet Resources
Automatische Qualitätsabschätzung für Internet Ressourcen
Die Bewertung von Wissen und Information nach ihrer Qualität stellt einen extrem wichtigen Prozess für den potenziellen Nutzer dieser Information dar. Menschen erledigen dies tagtäglich. Diese Aufgabe wird jedoch zunehmend – und zunächst weitgehend unbemerkt – an Maschinen übertragen. Diese Vorstellung mag so manchen abschrecken oder zumindest als unrealistisch erscheinen, da die Bewertung von Qualität als eine intelligente und dem Menschen ureigenste Aufgabe gilt. Schließlich stehen hinter den Informationsobjekten wiederum Menschen, die diese erstellt haben. Bei automatischer Qualitätskontrolle bewertet demnach ein Computer den Menschen.
Aber die stark anwachsende Menge von Wissen, das weltweit zur Verfügung steht, erfordert eine teilweise Übertragung auf Maschinen, oder doch zumindest eine weitgehende Unterstützung des Menschen durch Computer. Zugleich schafft die weltweite Vernetzung technische Grundlagen zur Analyse, zum Vergleich und zur Verknüpfung sehr vieler Wissensangebote. Die Internet-Technologie bietet Möglichkeiten, das Verhalten zahlreicher Benutzer zu beobachten. Systeme zur Bearbeitung gemeinsamer Informationsräume eröffnen darüber hinaus ein Potenzial zur computerunterstützten Bewertung von Qualität. Kollaborative Filter etwa schaffen eine Dynamik, die heute bei weitem noch nicht ausgeschöpft ist.
Vor allem aber ist die Automatisierung von Qualitätsbewertung bereits Realität. Experimentelle Systeme behandeln zahlreiche Aspekte und nutzen unterschiedliche Definitionen von Qualität. Im Einsatz befindliche Systeme nutzen zur Zeit einzelne und begrenzte Aspekte von Qualität.
Der folgende Überblick will das Problem von verschiedensten Perspektiven betrachten. Die Diskussion existierender Anwendungen und vorhandener Modelle sollen den Bedarf und den Stand der Technik zeigen. Die nötigen und vor allem die erfolgversprechenden Technologien für die Bewertung von Qualität werden vorgestellt. Einige Experimente zeigen das Potenzial für weitere Entwicklungen auf.
Werden Informationsangebote bewertet, so werden heterogene Objekte anhand unterschiedlichster Kriterien bewertet. Es kann sich dabei um die Inhalte von Informationsprodukten und Informationsdienstleistungen ebenso handeln wie um ihre Präsentation, ihre Anordnung und ihre technische Umsetzung.
Je nach Objekt der Bewertung sind unterschiedliche Aspekte für die Qualität entscheidend. Während bei der technische Umsetzung die Ladezeit eine Rolle spielt, kommt es bei der Präsentation etwa auf die Lesbarkeit und Übersichtlichkeit an, um einige einfache Beispiele zu nennen. Problematischer ist die inhaltliche Bewertung von Text-Dokumenten, ein Bereich, bei dem automatischen Verfahren eine große Skepsis entgegengebracht wird. Diese Skepsis ist sicher auch weitgehend berechtigt. Andererseits setzen die Szionometrie und die Infometrie gerade in diesem Bereich schon seit langem mathematische und damit automatisierbare Verfahren ein.
Entscheidend für die Einschätzung der Möglichkeiten und Grenzen automatischer Verfahren zur Qualitätsbewertung ist die Kenntnis der verwendeten Verfahren und ihrer Entwicklungsperspektiven. Inhaltliche Faktoren für eine Abschätzung der Qualität können Wahrheitsgehalt, wissenschaftlicher Neuigkeitswert, Aktualität, stilistische Qualität, Grad der Adaptierung an den Adressatenkreis ebenso sein wie der Verlauf einer Diskussion sein. An diesen Beispielen wird bereits deutlich, dass Qualität nicht nur im Sinne von Güte sondern auch als Eigenschaft oder Beschaffenheit verstanden werden muss. Die Bewertung hängt stark vom Benutzerbedürfnis ab. Demnach ist das Erkennen einer Eigenschaft Grundvoraussetzung für eine adäquate Bewertung im Hinblick auf die konkreten Anforderungen einer Benutzungssituation. So ist das Erkennen journalistischer Texte und ihre Bevorzugung oder Ausblendung für viele Benutzungsbedürfnisse bereits ein entscheidender Mehrwert.
Kern automatischer Verfahren zur Abschätzung von Qualität ist das formale Erkennen von Eigenschaften. Dies gilt sowohl für die Beschaffenheit als auch die Güte. Die entscheidende Frage besteht darin, welche Eigenschaften sich gut für hierfür eignen und welche erkannt werden können. Die meisten automatischen Verfahren, die realisiert sind oder als wissenschaftliche Entwicklungen vorgestellt wurden, greifen auf Verfahren zur Zitationsanalyse in der Infometrie zurück und übertragen diese von Zitaten auf die im Internet verwendeten Hypertext-Verknüpfungen oder Links. Hier setzen Verfahren des Web-Mining und des Web-Measurement an.
Trotz der Suche nach automatischen Verfahren sollte dem menschlichen Urteil immer das Primat eingeräumt werden. Dementsprechend soll es auch die Richtschnur für Algorithmen vorgeben. So vage das menschliche Qualitätsurteil auch sein mag und so schwierig es zu erfassen ist, es gibt das Lernziel für den Computer vor. Welche Lernverfahren hierfür besonders gut geeignet sind und auf welche der formal identifizierbaren Eigenschaften sie zugreifen, müssen konkrete Experimente zeigen. Diese sollen im Rahmen des in diesem Arbeitsbericht geschilderten Projektes AQUAINT (Automatic Quality Assessment for Internet Ressources, Automatische Qualitätsabschätzung für Internet Resourcen) durchgeführt werden.
Erfolgreich realisierte Verfahren zur automatischen Qualitätsbewertung können vielfach eingesetzt werden. Immer wieder genannt wird die Funktion eines Qualitätsfilters, der in Suchmaschinen als zweiter Schritt nach den Standard Retrieval Verfahren aus dem Ergebnis Dokumente mit sehr niedriger Qualität tilgt.