Laufende Promotionen

Julian Hocker: Semantic WebTechnologien für qualitative Codierung

Im Rahmen der Dissertation soll aus informationswissenschaftlicher Sicht der Prozess der Qualitativen Codierung besser verstanden werden und es sollen digitale Werkzeuge entwickelt werden, um diese zu unterstützen. Der Fokus soll dabei darauf liegen, wie auch bei qualitativen Forschungsmethoden Möglichkeiten zum Austausch und zur Transparenz im Forschungsprozess eingesetzt werden können.

Besonders interessant sind hierbei Austausch und die Wiederverwendung von Codierungsschemata, da diese oftmals bereits in Publikationen beschrieben wurden. Um Austausch und Wiederverwendung zu verbessern, wird eine Ontologie entworfen und ein Softwaretool entwickelt, das diesen Austausch unterstützt. Für eine Bedarfsanalyse werden qualitative Interviews durchgeführt.

Wiebke Thode: Integration von Abbildungen in den Patentretrievalprozess

Bilder in Patenten stellen die abstrakte Verbildlichung der angemeldeten Erfindung dar und verdeutlichen so den Inhalt einer Erfindung. Aus dem Text lässt sich der Neuigkeitswert der Erfindung nur schwer erschließen, vor allem bedingt durch die besondere Textform geprägt durch Neologismen und inkonsistente Verwendung der Terminologie. In bestehenden Patentsystemen bildet der Text allerdings die Grundlage für das gesamte Retrieval, da die Eigenschaften der Abbildungen den gesamten Retrievalprozess erschweren.

Der Ansatz der Arbeit ist es ein prototypisches System/prototypische Funktionalitäten zu entwickeln, welche anhand der Anforderungen der Nutzer ermittelt wurden. Dieses System verfolgt den multimodalen Ansatz der Kombination von Bildern und Text. Ziel ist unter anderem die Ermittlung einer möglichst optimalen Darstellung der Ergebnisse und  eine bessere Usability durch die Anpassung der Systemeigenschaften an den Nutzer zu erreichen.

Noushin Fadaei: Interactive Technology Trend Detection

Recognizing the emergence of new trends in technology comprises an invaluable competitive edge for industrial companies. A natural candidate to extract this information is given by patent databases, which by their very nature collect recent activities of major research and development departments. In order to identify trends within a patent collection, we need to organize the data into clusters in particular with respect to time. This paper sketches a plan that aims to find uptrends among the time-series obtained through clusters. It also refers to the clusters to further analyze the type of the identified trend. Since the type of trends or the reason behind their creation is highly dependent on the search constructor’s perceptive, the proposed system offers interactive solutions at some steps of the process. The patent data used in this work is fed entirely by the European Patent Fulltext (EPFULL) provided by FIZ Karlsruhe.

Julia Jürgens: Prozessorientierte Visualisierung im Patent-Retrieval

Die Suche nach Patenten ist ein komplexer, iterativer Prozess. Es gibt mehrere Herausforderungen, mit denen Information Professionals bei der Recherche konfrontiert sind. Dies ist zum einen die Vielzahl an existierenden Patenten (50-90 Millionen), aus denen einige wenige relevante identifiziert werden müssen. Zum anderen erschweren die linguistischen Eigenheiten der Patentdokumente das Retrieval. Neben technischen und juristischen Teilen sind insbesondere die ungewöhnlichen und vagen Formulierungen ein Problem. Letztere werden bewusst eingesetzt, um die Erfindung nicht klar offenzulegen und sie möglichst breit zu halten. Ein weiterer Aspekt ist die begrenzte Zeit, die Patentexperten für eine Suche zur Verfügung haben. Gleichzeitig müssen die Rechercheergebnisse aber eine hohe Qualität aufweisen, in einigen Fällen ist ein Recall von 1 gefordert. Um diese Anforderungen möglichst optimal zu erfüllen, sind Systeme und Werkzeuge erforderlich, die die Information Professionals unterstützen. 

Eine Möglichkeit ist das Forschungsgebiet Information Visualization, das die Visualisierung abstrakter Daten umfasst und Nutzern somit eine andere Sichtweise auf Daten bietet. Visualisierungen eignen sich, um Informationen effektiv und effizient zu kommunizieren, da sie durch die visuellen Fähigkeiten von Menschen schneller erfassbar sind als die vergleichbare Menge an Text.

Das Dissertationsprojekt beschäftigt sich daher mit der Entwicklung von Visualisierungen, die die Experten während des Patent-Retrieval unterstützen. Sie sollen in verschiedenen Phasen des Prozesses Anwendung finden und interaktiv bedienbar sein. Im Fokus der Entwicklung stehen die Nutzer, die durch mehrere Evaluationen eingebunden werden.

Das Promotionsprojekt entsteht in Kooperation mit dem FIZ Karlsruhe und wird an der Universität Hildesheim durchgeführt.

Fritz Kliche: Die Erschließung heterogener Textquellen für die Digital Humanities

Material aus stets neuen Quellen strömt in die Archive, die den Digital Humanities zur Arbeit an Texten zur Verfügung stehen. Die Archive stellen eine Fülle von Textmaterial aus Zeitungen, Blogs, Foren und dem breiten Angebot von User-generated Content bereit. Doch mit der wachsenden Zahl der Quellen steigt die Heterogenität der Daten: Die Archive präsentieren die Daten in einer jeweils eigenen Datenstruktur. Die textlichen Inhalte werden von strukturierenden Elementen ummantelt und mit Metadaten angereichert (z. B. zum Erscheinungsdatum, Autor, Datenquelle, etc.), deren Umfang und Format sich mit unterschiedlichen Datenstrukturen unterscheiden. Die Arbeit anhand von Daten aus unterschiedlichen Quellen verlangt die Erschließung der heterogenen Datenstrukturen. 


Hier setzen die Forschungsfragen des vorgelegten Vorhabens an: Welche sprachtechnologischen Methoden eignen sich, um innerhalb einer gegebenen Textsorte auch in heterogenen Datenstrukturen die textlichen Inhalte trennscharf aus dem text-strukturierenden Material herauszuschneiden, die Metadaten zu interpretieren und die Daten in ein standardisiertes und computerlinguistisch weiterverarbeitbares Format zu überführen? Welche Spannbreite heterogener Datenstrukturen lässt sich homogenisieren? Welches Potential liegt für diese Aufgaben in rechenintensiven NLP-Anwendungen wie Syntaxparsern oder Methoden zum Maschinellen Lernen, vor dem Hintergrund der großen Textmengen für die Arbeit am Korpus? Die Arbeit validiert sprachtechnologische Anwendungen unterschiedlicher Komplexitätstiefen und mündet in ein Werkzeug zur Erschließung heterogenen Datenmaterials für die Digital Humanities.

Jennifer Krisch: Sprachliche und sachliche Kontrolle von natürlich sprachlichen Anforderungsdokumenten

Die Kommunikation zwischen Auftraggeber und Auftragnehmer in Industrieprojekten verläuft meist über Pflichtenhefte und Lastenhefte. Diese Spezifikationsdokumente beinhalten Anforderungen, welche Aussagen über Eigenschaften oder Leistungen eines Produktes, eines Prozesses oder der am Prozess beteiligten Personen machen. Da Spezifikationsdokumente eine zentrale Rolle in der Entwicklung spielen, sollten diese regelmäßig auf ihre Qualität kontrolliert werden. Ziel bei dieser Qualitätskontrolle ist es, sprachliche und sachliche Fehler in den Spezifikationstexten zu ermitteln und anschließend zu beseitigen.

In der geplanten Promotion soll untersucht werden, inwiefern eine computerlinguistische Korpusanalysemethodik dazu dienen kann, sachliche und sprachliche Inkonsistenzen in Lastenheften zu identifizieren und diese den Lastenheftautoren zu signalisieren, damit die Autoren die potentiell fehlerhaften Anforderungen nochmals überarbeiten und somit verbessern können. Hierbei soll auch ein Fokus darauf liegen, wie diese Warnungen aufgebaut sein könnten: Es sollen nicht nur Warnungen an den Lastenheftautor gegeben, sondern wo immer möglich auch konkrete Verbesserungsvorschläge gemacht werden. Für welche Art von Problemen computerlinguistische Verfahren einsetzbar sind, inwiefern die Warnungen konkretisiert werden können und wie gut sich die computerlinguistischen Verfahren in ein benutzerfreundliches System zur Kontrolle von Lastenheften integrieren lassen, soll in der Dissertation untersucht werden. Gleichzeitig wird untersucht, welche Phänomene, die sprachliche oder sachliche Inkonsistenzen auslösen, durch eine generelle (computer-) linguistische Modellierung erfasst werden können.

Die Promotion wird in der Forschungsabteilung der Daimler AG am Standort Böblingen/Hulb durchgeführt und durch die Universität Hildesheim betreut.

Nadine Mahrholz: Anfrageverhalten auf allgemeinen und spezialisierten Suchdiensten – Eine Analyse im Kontext der bildungsbezogenen Informationssuche

Bisherige Studien zum Anfrageverhalten von Web-Nutzern sind vorwiegend logdatenbasiert und fokussieren Suchprozesse innerhalb von Suchdiensten. Teilweise wurde das Anfrageverhalten zwischen verschiedenen Suchdiensten verglichen. Die Frage, wie sich Anfrageprozesse während einer Suche über verschiedene Suchdienste hinweg entwickeln, ist dagegen bislang wenig erforscht.

Ziel des Promotionsvorhabens ist es, das Suchverhalten und speziell das Anfrageverhalten auf allgemeinen und spezialisierten Web-Suchdiensten zu untersuchen und ein Verständnis dafür zu entwickeln, welche Unterschiede und Gemeinsamkeiten es in der Nutzung der Suchdienste gibt. Verglichen werden das Nutzervokabular sowie Suchprozesse. Der Schwerpunkt liegt dabei nicht auf dem Nutzerverhalten innerhalb, sondern beim Übergang von Suchdiensten. Die Analysen sollen dazu beitragen, eine Gesamtsicht auf Suchprozesse zu erhalten und das Zusammenspiel von verschiedenen Suchdiensten besser zu verstehen. Daraus sollen Hinweise zur Optimierung von Suchdiensten abgeleitet werden.

Das Promotionsprojekt findet in Kooperation mit dem Deutschen Institut für Internationale Pädagogische Forschung (DIPF) statt. Die Untersuchungen werden exemplarisch für den Bereich der bildungsbezogenen Informationssuche durchgeführt. Methodisch fußt das Vorhaben auf einer Kombination von Logdatei-Analysen und Nutzertests.

Heike Stadler: Qualitätsverbesserung der morphosyntaktischen Annotation deutscher Textkorpora

Die maschinelle Auszeichnung digitaler Textkorpora mit linguistischen Informationen wird von computerlinguistischen Werkzeugen wie morphologischen Analysesystemen, Part-of-Speech Taggern, Lemmatisierern oder Parsern durchgeführt. Die morphosyntaktische Annotation der einzelnen Wortformen umfasst die Bestimmung der Flexion, die Lemmatisierung und die Ermittlung der Wortart. Die durchschnittliche Fehlerrate von ca. 2-5% in der morphosyntaktischen Annotation verteilt sich überwiegend auf unbekannte Wortformen und Homographen, beruht aber auch auf der falschen Zuordnung von Lemmata, POS-Tags und Flexionsangaben sowie auf der Bereitstellung von im Deutschen nicht existenten Lemmaformen oder unplausiblen morphologischen Zerlegungen. Durch den Trend in den Geisteswissenschaften zur empirischen Forschung, der stetig wachsenden Bedeutung von Information Retrieval, Text Mining und sprachverarbeitenden Systemen wie der maschinellen Übersetzung gewinnt die Auszeichnung digitaler Textkorpora mit linguistischen Informationen zunehmend an Relevanz. 

Das Ziel der Dissertation ist eine möglichst hohe Akkuratheit der morphosyntaktischen Annotation deutscher Textkorpora. Über die Klassifizierung und Evaluierung der Ursachen inkorrekter morphosyntaktischer Auszeichnungen werden geeignete Verfahren zur Verbesserung der linguistischen Korpusannotation ermittelt. Die entwickelten Methoden zur Verbesserung der morphosyntaktischen Annotation deutscher Textkorpora sollen als Open-Source-Verfahren und -Daten zur Verfügung gestellt werden, in Form von Trainingskorpora, großen korpusgenerierten Lexika und regelbasierten Werkzeugen. Das Forschungsvorhaben wird in Kooperation mit dem Institut für Deutsche Sprache, Mannheim, durchgeführt, das mit dem Deutschen Referenzkorpus über die größte digitale deutsche Textsammlung verfügt.