e-Identity

e-Identity

Arbeiten in den e-Humanities stehen vor dem Problem, dass mit unterschiedlichen Textquellen auch unterschiedliche Textstrukturen und Dateiformate einhergehen. Computerlinguistische Werkzeuge (Tokenizer, POS-Tagger, Syntax-Parser etc.) sind auf solchem Datenmaterial nicht unmittelbar anwendbar. Sie sind so konzipiert, dass sie einheitliche Eingaben erwarten und den Daten ein einheitliches Format abverlangen. Diesem Problem begegnet die Hildesheimer Computerlinguistik. Das Verbundprojekt „e-Identity“ (Universitäten Stuttgart, Hildesheim, Potsdam) untersucht politikwissenschaftliche Fragestellungen anhand eines mehrsprachigen Korpus von Zeitungstexten. Die Hildesheimer Computerlinguistik entwickelt eine "Explorationswerkbank", über die das Datenmaterial dieses Korpus für computerlinguistische Werkzeuge aufbereitet wird. Dazu müssen unterschiedliche Textformate (RTF, TXT, PDF, HTML, DOCX) und Enkodierungen (ISO-8859, UTF-8) ebenso wie verschiedene Textstrukturen berücksichtigt werden, um das Datenmaterial in eine einheitliche, maschinenlesbare Form (XML, flache Textformate) zu überführen. Wir entwickeln außerdem Werkzeuge zum Text Mining, um in dem Datenmaterial die textlichen Inhalte zu erkennen und Metadaten zu interpretieren (z.B. Datum, Autor, ...). Werkzeuge zur Erkennung von Artikel-Dubletten (Paare identischer Artikel) und Semi-Dubletten (Paare ähnlicher Artikel) runden die Funktionalitäten ab. Die Explorationswerkbank fungiert damit als Bindeglied, das computerlinguistische Werkzeuge für die e-Humanities zugänglich macht.

Methoden und Werkzeuge

Aufbau einer datenbankbasierten Web-Anwendung

Forschungsfragen
Welche sprachtechnologischen Verfahren eignen sich, um auch in heterogenen Datenstrukturen die textlichen Inhalte und Metadaten zu interpretieren und die Daten in ein standardisiertes und computerlinguistisch weiterverarbeitbares Format zu überführen?
Welche Spannbreite heterogener Datenstrukturen lässt sich homogenisieren?
Welches Potential liegt für diese Aufgaben in rechenintensiven NLP-Anwendungen und Methoden zum maschinellen Lernen, besonders vor dem Hintergrund der großen Textmengen?
Datenbasis
ca. 800.000 digitale Ausgaben von Zeitungsartikeln
Projektart
Aufgabenverteilung

Uni Hildesheim: Korpuserstellung; Uni Stuttgart, Computerlinguistik: Entwicklung sprachtechnologischer Werkzeuge; Uni Potsdam: Entwicklung sprachtechnologischer Werkzeuge; Uni Stuttgart, Sozialwissenschaft: Datenanalyse; Korpusanalyse; politikwissenschaftliche Auswertung

Sachbereich/Branche