Universität Hildesheim > Institut für Angewandte Sprachwissenschaft > Robert Strötgen > Lehre > Übung "Suchmaschinentechnologie"


Übung "Suchmaschinentechnologie"
3110 (Sommersemester 2005)
Di 08.30 - 10.00 (2 SWS)
Raum F 207
Teilnehmerkreis: IIM- und IM/IT-Studierende

In dieser praktischen Übung werden Techniken und Werkzeuge zur Erstellung von Suchmaschinen (z.B. Crawler, Indexierung, Anfragebearbeitung, Ranking) erprobt und zu einer einfachen, prototypischen Suchmaschine integriert. Die Grundlage dafür bilden u.a. MIMOR und die OpenSource-Suchmaschine Lucene.

Grundkenntnisse in Java und XML/HTML sind erforderlich.

Anmeldung per E-Mail an stroetgen@uni-hildesheim.de.


Zeitplan

Datum Thema Material etc.
19.04. Einführung
26.04. Erster Einstieg
WebCrawler I
Lektüre: Ferber Kap. 16.1-4
03.05. WebCrawler II Beispiel-Crawler (Stoldt/Heuwing)
10.05. Indexierung mit Lucene I
17.05. Exkursionswoche, keine Veranstaltung
24.05. fällt aus
31.05. Indexierung mit Lucene II
07.06. XML/XTML-Verarbeitung
14.06. fällt aus
21.06. fällt aus
28.06. Analyse HTML-Dokumente Beispiel-Analyseprogramm
04.07. 10:00 Integration HTML-Indexierung in Crawler Beispiel-Crawler (Stoldt/Heuwing)
05.07. 9:00 Recherche mit Lucene
11.07. 10:00 Recherche mit Lucene
12.07. Recherche mit Lucene

Materialien/Links/Werkzeuge


Literatur

Semesterapparat 34,2 in der UB.


Aufgabe für einen Schein IIM/G6 und IMIT/IW2 (BSc)

  • Implementieren Sie auf der Grundlage von JoBo einen WebCrawler, der gefundene Html-Seiten mit Lucene indexiert.
  • Crawlen Sie verschiedene Websites zu einem beliebigen Thema, indexieren sie gefundene Daten und Metadaten in verschiedenen Lucene-Feldern.
    Wichtig: Kein aggressives Crawlen, beachten Sie die "Guidelines for Robot Writers"!
  • Entwickeln Sie eine einfache Java-Applikation, mit deren Hilfe der erstellte Index durchsucht werden kann.
  • JavaDoc obligatorisch.
  • Schriftliche Dokumentation (individuell), in der Lösungswege beschrieben, Design-Entscheidungen begründet dargestellt und Fehlschläge dokumentiert werden (macht ca. 30% der Note aus!).

Bitte vermeiden Sie absulute Dateipfade und URLs in Ihrem Projekt, wo unvermeidbar bitte in einfach anzupassenden Variablen ablegen. Exportieren Sie Ihr Projekt (ohne lib-Dateien) in eine ZIP-Datei und senden Sie mir diese per E-Mail. Die Dokumentation sollte eine einfache Installations- und Anwendungsanleitung enthalten.

Letzter Abgabetermin: 21. Oktober 2005

Zusätzliche Anforderungen für IMIT/IW (MSc)
  • Implementieren Sie (nach Rücksprache) für Lucene eine erweiterte Suchmöglichkeiten, z.B.
    • Sounds-like-Suche
    • Anfrageerweiterung über WordNet/GermaNet oder andere externe Ressource
  • Die Suchoberfläche sollte als grafische Web-Anwendung (z.B. JSP, Servlet) implementiert sein und neben der Suche auch Browsing erlauben.

Partner:

Altova XML Spy

Valid XHTML 1.0!