Promotionen

Abgeschlossene Promotionen

Eine Übersicht der abgeschlossenen Promotionen finden Sie hier.

Gabriele Irle: Emotionen während der Internetsuche

Das menschliche Suchverhalten wird in der Informationswissenschaft im Fachgebiet Information Seeking erforscht. Das Promotionsvorhaben widmet sich der Untersuchung von Emotionen bei der Internetsuche. Erkenntnisse darüber können als Grundlage für Verbesserungen von Informationssystemen und zur Unterstützung des Informationssuchenden dienen. Das Promotionsvorhaben sieht eine Kombination aus Leitfadeninterviews und Stimulated Recall in den USA und Deutschland vor und folgt der Grounded-Theory-Methodologie.

Julia Jürgens: Prozessorientierte Visualisierung im Patent-Retrieval

Die Suche nach Patenten ist ein komplexer, iterativer Prozess. Es gibt mehrere Herausforderungen, mit denen Information Professionals bei der Recherche konfrontiert sind. Dies ist zum einen die Vielzahl an existierenden Patenten (50-90 Millionen), aus denen einige wenige relevante identifiziert werden müssen. Zum anderen erschweren die linguistischen Eigenheiten der Patentdokumente das Retrieval. Neben technischen und juristischen Teilen sind insbesondere die ungewöhnlichen und vagen Formulierungen ein Problem. Letztere werden bewusst eingesetzt, um die Erfindung nicht klar offenzulegen und sie möglichst breit zu halten. Ein weiterer Aspekt ist die begrenzte Zeit, die Patentexperten für eine Suche zur Verfügung haben. Gleichzeitig müssen die Rechercheergebnisse aber eine hohe Qualität aufweisen, in einigen Fällen ist ein Recall von 1 gefordert. Um diese Anforderungen möglichst optimal zu erfüllen, sind Systeme und Werkzeuge erforderlich, die die Information Professionals unterstützen. 

Eine Möglichkeit ist das Forschungsgebiet Information Visualization, das die Visualisierung abstrakter Daten umfasst und Nutzern somit eine andere Sichtweise auf Daten bietet. Visualisierungen eignen sich, um Informationen effektiv und effizient zu kommunizieren, da sie durch die visuellen Fähigkeiten von Menschen schneller erfassbar sind als die vergleichbare Menge an Text.

Das Dissertationsprojekt beschäftigt sich daher mit der Entwicklung von Visualisierungen, die die Experten während des Patent-Retrieval unterstützen. Sie sollen in verschiedenen Phasen des Prozesses Anwendung finden und interaktiv bedienbar sein. Im Fokus der Entwicklung stehen die Nutzer, die durch mehrere Evaluationen eingebunden werden.

Das Promotionsprojekt entsteht in Kooperation mit dem FIZ Karlsruhe und wird an der Universität Hildesheim durchgeführt.

Fritz Kliche: Die Erschließung heterogener Textquellen für die Digital Humanities

Material aus stets neuen Quellen strömt in die Archive, die den Digital Humanities zur Arbeit an Texten zur Verfügung stehen. Die Archive stellen eine Fülle von Textmaterial aus Zeitungen, Blogs, Foren und dem breiten Angebot von User-generated Content bereit. Doch mit der wachsenden Zahl der Quellen steigt die Heterogenität der Daten: Die Archive präsentieren die Daten in einer jeweils eigenen Datenstruktur. Die textlichen Inhalte werden von strukturierenden Elementen ummantelt und mit Metadaten angereichert (z. B. zum Erscheinungsdatum, Autor, Datenquelle, etc.), deren Umfang und Format sich mit unterschiedlichen Datenstrukturen unterscheiden. Die Arbeit anhand von Daten aus unterschiedlichen Quellen verlangt die Erschließung der heterogenen Datenstrukturen. 


Hier setzen die Forschungsfragen des vorgelegten Vorhabens an: Welche sprachtechnologischen Methoden eignen sich, um innerhalb einer gegebenen Textsorte auch in heterogenen Datenstrukturen die textlichen Inhalte trennscharf aus dem text-strukturierenden Material herauszuschneiden, die Metadaten zu interpretieren und die Daten in ein standardisiertes und computerlinguistisch weiterverarbeitbares Format zu überführen? Welche Spannbreite heterogener Datenstrukturen lässt sich homogenisieren? Welches Potential liegt für diese Aufgaben in rechenintensiven NLP-Anwendungen wie Syntaxparsern oder Methoden zum Maschinellen Lernen, vor dem Hintergrund der großen Textmengen für die Arbeit am Korpus? Die Arbeit validiert sprachtechnologische Anwendungen unterschiedlicher Komplexitätstiefen und mündet in ein Werkzeug zur Erschließung heterogenen Datenmaterials für die Digital Humanities.

Jennifer Krisch: Sprachliche und sachliche Kontrolle von natürlich sprachlichen Anforderungsdokumenten

Die Kommunikation zwischen Auftraggeber und Auftragnehmer in Industrieprojekten verläuft meist über Pflichtenhefte und Lastenhefte. Diese Spezifikationsdokumente beinhalten Anforderungen, welche Aussagen über Eigenschaften oder Leistungen eines Produktes, eines Prozesses oder der am Prozess beteiligten Personen machen. Da Spezifikationsdokumente eine zentrale Rolle in der Entwicklung spielen, sollten diese regelmäßig auf ihre Qualität kontrolliert werden. Ziel bei dieser Qualitätskontrolle ist es, sprachliche und sachliche Fehler in den Spezifikationstexten zu ermitteln und anschließend zu beseitigen.

In der geplanten Promotion soll untersucht werden, inwiefern eine computerlinguistische Korpusanalysemethodik dazu dienen kann, sachliche und sprachliche Inkonsistenzen in Lastenheften zu identifizieren und diese den Lastenheftautoren zu signalisieren, damit die Autoren die potentiell fehlerhaften Anforderungen nochmals überarbeiten und somit verbessern können. Hierbei soll auch ein Fokus darauf liegen, wie diese Warnungen aufgebaut sein könnten: Es sollen nicht nur Warnungen an den Lastenheftautor gegeben, sondern wo immer möglich auch konkrete Verbesserungsvorschläge gemacht werden. Für welche Art von Problemen computerlinguistische Verfahren einsetzbar sind, inwiefern die Warnungen konkretisiert werden können und wie gut sich die computerlinguistischen Verfahren in ein benutzerfreundliches System zur Kontrolle von Lastenheften integrieren lassen, soll in der Dissertation untersucht werden. Gleichzeitig wird untersucht, welche Phänomene, die sprachliche oder sachliche Inkonsistenzen auslösen, durch eine generelle (computer-) linguistische Modellierung erfasst werden können.

Die Promotion wird in der Forschungsabteilung der Daimler AG am Standort Böblingen/Hulb durchgeführt und durch die Universität Hildesheim betreut.

Nadine Mahrholz: Anfrageverhalten auf allgemeinen und spezialisierten Suchdiensten – Eine Analyse im Kontext der bildungsbezogenen Informationssuche

Bisherige Studien zum Anfrageverhalten von Web-Nutzern sind vorwiegend logdatenbasiert und fokussieren Suchprozesse innerhalb von Suchdiensten. Teilweise wurde das Anfrageverhalten zwischen verschiedenen Suchdiensten verglichen. Die Frage, wie sich Anfrageprozesse während einer Suche über verschiedene Suchdienste hinweg entwickeln, ist dagegen bislang wenig erforscht.

Ziel des Promotionsvorhabens ist es, das Suchverhalten und speziell das Anfrageverhalten auf allgemeinen und spezialisierten Web-Suchdiensten zu untersuchen und ein Verständnis dafür zu entwickeln, welche Unterschiede und Gemeinsamkeiten es in der Nutzung der Suchdienste gibt. Verglichen werden das Nutzervokabular sowie Suchprozesse. Der Schwerpunkt liegt dabei nicht auf dem Nutzerverhalten innerhalb, sondern beim Übergang von Suchdiensten. Die Analysen sollen dazu beitragen, eine Gesamtsicht auf Suchprozesse zu erhalten und das Zusammenspiel von verschiedenen Suchdiensten besser zu verstehen. Daraus sollen Hinweise zur Optimierung von Suchdiensten abgeleitet werden.

Das Promotionsprojekt findet in Kooperation mit dem Deutschen Institut für Internationale Pädagogische Forschung (DIPF) statt. Die Untersuchungen werden exemplarisch für den Bereich der bildungsbezogenen Informationssuche durchgeführt. Methodisch fußt das Vorhaben auf einer Kombination von Logdatei-Analysen und Nutzertests.

Heike Stadler: Qualitätsverbesserung der morphosyntaktischen Annotation deutscher Textkorpora

Die maschinelle Auszeichnung digitaler Textkorpora mit linguistischen Informationen wird von computerlinguistischen Werkzeugen wie morphologischen Analysesystemen, Part-of-Speech Taggern, Lemmatisierern oder Parsern durchgeführt. Die morphosyntaktische Annotation der einzelnen Wortformen umfasst die Bestimmung der Flexion, die Lemmatisierung und die Ermittlung der Wortart. Die durchschnittliche Fehlerrate von ca. 2-5% in der morphosyntaktischen Annotation verteilt sich überwiegend auf unbekannte Wortformen und Homographen, beruht aber auch auf der falschen Zuordnung von Lemmata, POS-Tags und Flexionsangaben sowie auf der Bereitstellung von im Deutschen nicht existenten Lemmaformen oder unplausiblen morphologischen Zerlegungen. Durch den Trend in den Geisteswissenschaften zur empirischen Forschung, der stetig wachsenden Bedeutung von Information Retrieval, Text Mining und sprachverarbeitenden Systemen wie der maschinellen Übersetzung gewinnt die Auszeichnung digitaler Textkorpora mit linguistischen Informationen zunehmend an Relevanz. 

Das Ziel der Dissertation ist eine möglichst hohe Akkuratheit der morphosyntaktischen Annotation deutscher Textkorpora. Über die Klassifizierung und Evaluierung der Ursachen inkorrekter morphosyntaktischer Auszeichnungen werden geeignete Verfahren zur Verbesserung der linguistischen Korpusannotation ermittelt. Die entwickelten Methoden zur Verbesserung der morphosyntaktischen Annotation deutscher Textkorpora sollen als Open-Source-Verfahren und -Daten zur Verfügung gestellt werden, in Form von Trainingskorpora, großen korpusgenerierten Lexika und regelbasierten Werkzeugen. Das Forschungsvorhaben wird in Kooperation mit dem Institut für Deutsche Sprache, Mannheim, durchgeführt, das mit dem Deutschen Referenzkorpus über die größte digitale deutsche Textsammlung verfügt.

Julia Maria Struß: Crosslinguales Produktretrieval: Extrahieren von Produkteigenschaften und Analyse zugehöriger Meinungsäußerungen

Das Promotionsprojekt ist im Bereich des Opinion Mining resp. der Sentiment Analysis - einem jungen Forschungsgebiet, das sich mit der Identizierung und Klassizierung von Meinungsäußerungen in natürlichsprachigem Text, z.B. Zeitungsartikeln, Foreneinträgen und Produktrezensionen, befasst - angesiedelt. Im vorliegenden Promotionsprojekt wurden die Produktrezensionen als Anwendungsfall gewählt. Diese stellen sowohl für private Internetnutzer als auch für Unternehmen eine zunehmend wichtige Informationsquelle bezüglich der Qualität von Produkten und ihren Komponenten dar. Die Anzahl der im Internet verfügbaren Kundenrezensionen ist mittlerweile auf ein Maß angewachsen, das eine manuelle Auswertung nahezu unmöglich macht und eine maschinelle Unterstützung fordert. Im Rahmen des Promotionsvorhabens soll ein Prototyp entstehen, der automatisch die in den Rezensionen genannten Produkteigenschaften und die korrespondierende Meinung extrahiert und zusammenfasst. Der Schwerpunkt liegt dabei auf der Mehrsprachigkeit, die die Berücksichtigung von Kundenrezensionen und den darin enthaltenen Meinungsäußerungen in verschiedenen Sprachen zum Ziel hat.

Ornella Wandji Tchami: Verbs in medical corpora of different degrees of specialisation: From linguistics descriptions to a computational application in text simplification

Standard medical language often contains specialized and technical verbal phraseology, which is hard to understand for lay persons. Therefore, the understanding of medical documents is sometimes compromised, although it is crucial for the success of communication between patients and medical staff. The purpose of our study is to propose a model for the automatic simplification of specialized medical texts intended for the general public. The tool should identify the specialized usages of verbs and replace them with easily understandable equivalents. We start from a comparative analysis of verbal phraseologies, within four medical corpora with French texts, which are differentiated according to the levels of expertise of the authors and intended readership ; C1 : texts written by medical experts for medical experts, C2 : texts written by medical experts for medical students, C3 : texts written by medical experts for lay people, C4 : discussions of the people participating on some medical forums. This analysis focuses particularly on subjects and complements of verbs, on verbal valency patterns, collocational patterns and semantic preferences, and allows us to capture the similarities and specificities of the studied discourses and to therefore identify the types of constructions that may need to be simplified. The semantic annotation of the corpora is based on semantic information provided by the Snomed International Terminology (11 categories). Within the framework of this PhD project, a prototype of the simplification tool will be provided.

Katrin Werner: Bewertung von Suchergebnissen: Zur Rolle von Erwartungseinflüssen im Umgang mit Suchmaschinen

Die Informationssuche im Internet ist ein iterativer Prozess bei dem sich Ziel- und Lösungsvorstellungen aneinander annähern. Nutzer lernen im Verlauf ihrer Suche neue Dinge hinzu, die den Fortgang der Suche beeinflussen oder der Fokus ihrer Suche verschiebt sich im Suchprozess, weil das ursprüngliche Informationsbedürfnis an neue Gegebenheiten angepasst wird. Darüber hinaus unterscheiden sich technische und inhaltliche Kompetenz nicht nur innerhalb der Nutzerschaft, sondern auch zwischen unterschiedlichen Informationsbedürfnissen.

Ein zentraler Indikator zur Beurteilung der Systemqualität im Kontext von Suchmaschinen ist die Benutzerzufriedenheit. Das Ziel dieses Dissertationsprojektes ist es, den Einfluss von Benutzererwartungen auf die Bewertung von Suchergebnissen zu untersuchen. In Anlehnung an Erkenntnisse aus der Kundenzufriedenheitsforschung werden dazu in experimentellen Benutzerstudien personen- und kontextabhängige Einflussfaktoren auf die Benutzerzufriedenheit untersucht und das individuelle Suchverhalten unter kontrollierten Bedingungen beobachtet.