Computerlinguistische Werkzeuge für die politikwissenschaftliche Analyse von Zeitungsarchiven

Laufzeit

2012-2015

Förderung

BMBF, Förderkennziffer 01UG1234B

Projektleitung

Prof. Dr. Ulrich Heid

Mitarbeiter

Fritz Kliche, M.A.

Projektbeschreibung

Arbeiten in den e-Humanities stehen vor dem Problem, dass mit unterschiedlichen Textquellen auch unterschiedliche Textstrukturen und Dateiformate einhergehen. Computerlinguistische Werkzeuge (Tokenizer, POS-Tagger, Syntax-Parser etc.) sind auf solchem Datenmaterial nicht unmittelbar anwendbar. Sie sind so konzipiert, dass sie einheitliche Eingaben erwarten und den Daten ein einheitliches Format abverlangen.

Diesem Problem begegnet die Hildesheimer Computerlinguistik. Das Verbundprojekt „e-Identity“ (Universitäten Stuttgart, Hildesheim, Potsdam) untersucht politikwissenschaftliche Fragestellungen anhand eines mehrsprachigen Korpus von Zeitungstexten.

Die Hildesheimer Computerlinguistik entwickelt eine "Explorationswerkbank", über die das Datenmaterial dieses Korpus für computerlinguistische Werkzeuge aufbereitet wird. Dazu müssen unterschiedliche Textformate (RTF, TXT, PDF, HTML, DOCX) und Enkodierungen (ISO-8859, UTF-8) ebenso wie verschiedene Textstrukturen berücksichtigt werden, um das Datenmaterial in eine einheitliche, maschinenlesbare Form (XML, flache Textformate) zu überführen. Wir entwickeln außerdem Werkzeuge zum Text Mining, um in dem Datenmaterial die textlichen Inhalte zu erkennen und Metadaten zu interpretieren (z.B. Datum, Autor, ...). Werkzeuge zur Erkennung von Artikel-Dubletten (Paare identischer Artikel) und Semi-Dubletten (Paare ähnlicher Artikel) runden die Funktionalitäten ab. Die Explorationswerkbank fungiert damit als Bindeglied, das computerlinguistische Werkzeuge für die e-Humanities zugänglich macht.  

Siehe auch die Projekt-Webseite