|
[home]
[zurück]
|
Übung "Suchmaschinentechnologie"
3110 (Sommersemester 2005)
Di 08.30 - 10.00 (2 SWS)
Raum F 207
Teilnehmerkreis: IIM- und IM/IT-Studierende
In dieser praktischen Übung werden Techniken und Werkzeuge
zur Erstellung von Suchmaschinen (z.B. Crawler, Indexierung,
Anfragebearbeitung, Ranking) erprobt und zu einer einfachen,
prototypischen Suchmaschine integriert. Die Grundlage dafür
bilden u.a. MIMOR und die OpenSource-Suchmaschine Lucene.
Grundkenntnisse in Java und XML/HTML sind erforderlich.
Anmeldung per E-Mail an stroetgen@uni-hildesheim.de.
Zeitplan
| Datum |
Thema |
Material etc. |
| 19.04. |
Einführung |
| 26.04. |
Erster Einstieg WebCrawler I |
Lektüre: Ferber Kap. 16.1-4 |
| 03.05. |
WebCrawler II |
Beispiel-Crawler (Stoldt/Heuwing) |
| 10.05. |
Indexierung mit Lucene I |
| 17.05. |
Exkursionswoche, keine Veranstaltung |
| 24.05. |
fällt aus |
| 31.05. |
Indexierung mit Lucene II |
| 07.06. |
XML/XTML-Verarbeitung |
| 14.06. |
fällt aus |
| 21.06. |
fällt aus |
| 28.06. |
Analyse HTML-Dokumente |
Beispiel-Analyseprogramm |
| 04.07. 10:00 |
Integration HTML-Indexierung in Crawler |
Beispiel-Crawler (Stoldt/Heuwing) |
| 05.07. 9:00 |
Recherche mit Lucene |
| 11.07. 10:00 |
Recherche mit Lucene |
| 12.07. |
Recherche mit Lucene |
Materialien/Links/Werkzeuge
Literatur
Semesterapparat 34,2 in der UB.
Aufgabe für einen Schein IIM/G6 und IMIT/IW2 (BSc)
- Implementieren Sie auf der Grundlage von JoBo einen WebCrawler, der gefundene Html-Seiten mit Lucene indexiert.
- Crawlen Sie verschiedene Websites zu einem beliebigen Thema, indexieren sie gefundene Daten und Metadaten in verschiedenen Lucene-Feldern.
Wichtig: Kein aggressives Crawlen, beachten Sie die "Guidelines for Robot Writers"!
- Entwickeln Sie eine einfache Java-Applikation, mit deren Hilfe der erstellte Index durchsucht werden kann.
- JavaDoc obligatorisch.
- Schriftliche Dokumentation (individuell), in der Lösungswege beschrieben, Design-Entscheidungen begründet dargestellt und Fehlschläge dokumentiert werden (macht ca. 30% der Note aus!).
Bitte vermeiden Sie absulute Dateipfade und URLs in Ihrem Projekt, wo unvermeidbar bitte in einfach anzupassenden Variablen ablegen.
Exportieren Sie Ihr Projekt (ohne lib-Dateien) in eine ZIP-Datei und senden Sie mir diese per E-Mail. Die Dokumentation sollte eine einfache Installations- und Anwendungsanleitung enthalten.
Letzter Abgabetermin: 21. Oktober 2005
Zusätzliche Anforderungen für IMIT/IW (MSc)
- Implementieren Sie (nach Rücksprache) für Lucene eine erweiterte Suchmöglichkeiten, z.B.
- Sounds-like-Suche
- Anfrageerweiterung über WordNet/GermaNet oder andere externe Ressource
- Die Suchoberfläche sollte als grafische Web-Anwendung (z.B. JSP, Servlet) implementiert sein und neben der Suche auch Browsing erlauben.
Partner:
|