Laufende Promotionen

Julian Hocker: Semantic WebTechnologien für qualitative Codierung

Im Rahmen der Dissertation soll aus informationswissenschaftlicher Sicht der Prozess der Qualitativen Codierung besser verstanden werden und es sollen digitale Werkzeuge entwickelt werden, um diese zu unterstützen. Der Fokus soll dabei darauf liegen, wie auch bei qualitativen Forschungsmethoden Möglichkeiten zum Austausch und zur Transparenz im Forschungsprozess eingesetzt werden können.

Besonders interessant sind hierbei Austausch und die Wiederverwendung von Codierungsschemata, da diese oftmals bereits in Publikationen beschrieben wurden. Um Austausch und Wiederverwendung zu verbessern, wird eine Ontologie entworfen und ein Softwaretool entwickelt, das diesen Austausch unterstützt. Für eine Bedarfsanalyse werden qualitative Interviews durchgeführt.

Wiebke Thode: Integration von Abbildungen in den Patentretrievalprozess

Bilder in Patenten stellen die abstrakte Verbildlichung der angemeldeten Erfindung dar und verdeutlichen so den Inhalt einer Erfindung. Aus dem Text lässt sich der Neuigkeitswert der Erfindung nur schwer erschließen, vor allem bedingt durch die besondere Textform geprägt durch Neologismen und inkonsistente Verwendung der Terminologie. In bestehenden Patentsystemen bildet der Text allerdings die Grundlage für das gesamte Retrieval, da die Eigenschaften der Abbildungen den gesamten Retrievalprozess erschweren.

Der Ansatz der Arbeit ist es ein prototypisches System/prototypische Funktionalitäten zu entwickeln, welche anhand der Anforderungen der Nutzer ermittelt wurden. Dieses System verfolgt den multimodalen Ansatz der Kombination von Bildern und Text. Ziel ist unter anderem die Ermittlung einer möglichst optimalen Darstellung der Ergebnisse und  eine bessere Usability durch die Anpassung der Systemeigenschaften an den Nutzer zu erreichen.

Noushin Fadaei: Interactive Technology Trend Detection

Recognizing the emergence of new trends in technology comprises an invaluable competitive edge for industrial companies. A natural candidate to extract this information is given by patent databases, which by their very nature collect recent activities of major research and development departments. In order to identify trends within a patent collection, we need to organize the data into clusters in particular with respect to time. This paper sketches a plan that aims to find uptrends among the time-series obtained through clusters. It also refers to the clusters to further analyze the type of the identified trend. Since the type of trends or the reason behind their creation is highly dependent on the search constructor’s perceptive, the proposed system offers interactive solutions at some steps of the process. The patent data used in this work is fed entirely by the European Patent Fulltext (EPFULL) provided by FIZ Karlsruhe.

Fritz Kliche: Die Erschließung heterogener Textquellen für die Digital Humanities

Material aus stets neuen Quellen strömt in die Archive, die den Digital Humanities zur Arbeit an Texten zur Verfügung stehen. Die Archive stellen eine Fülle von Textmaterial aus Zeitungen, Blogs, Foren und dem breiten Angebot von User-generated Content bereit. Doch mit der wachsenden Zahl der Quellen steigt die Heterogenität der Daten: Die Archive präsentieren die Daten in einer jeweils eigenen Datenstruktur. Die textlichen Inhalte werden von strukturierenden Elementen ummantelt und mit Metadaten angereichert (z. B. zum Erscheinungsdatum, Autor, Datenquelle, etc.), deren Umfang und Format sich mit unterschiedlichen Datenstrukturen unterscheiden. Die Arbeit anhand von Daten aus unterschiedlichen Quellen verlangt die Erschließung der heterogenen Datenstrukturen. 


Hier setzen die Forschungsfragen des vorgelegten Vorhabens an: Welche sprachtechnologischen Methoden eignen sich, um innerhalb einer gegebenen Textsorte auch in heterogenen Datenstrukturen die textlichen Inhalte trennscharf aus dem text-strukturierenden Material herauszuschneiden, die Metadaten zu interpretieren und die Daten in ein standardisiertes und computerlinguistisch weiterverarbeitbares Format zu überführen? Welche Spannbreite heterogener Datenstrukturen lässt sich homogenisieren? Welches Potential liegt für diese Aufgaben in rechenintensiven NLP-Anwendungen wie Syntaxparsern oder Methoden zum Maschinellen Lernen, vor dem Hintergrund der großen Textmengen für die Arbeit am Korpus? Die Arbeit validiert sprachtechnologische Anwendungen unterschiedlicher Komplexitätstiefen und mündet in ein Werkzeug zur Erschließung heterogenen Datenmaterials für die Digital Humanities.

Theresa Kruse: Das Erlernen der mathematischen Fachsprache der Graphentheorie durch Lehramtsstudierende mithilfe eines elektronischen Wörterbuches

In diesem Dissertationsprojekt soll die Verwendung von elektronischen Wörterbüchern im Bereich der Mathematik untersucht werden, genauer im Teilgebiet der Graphentheorie: Unterstützt die Verwendung eines elektronischen Wörterbuches die Herausbildung fachsprachlicher Textproduktionskompetenzen? Und wenn ja: wie?

Um valide Ergebnisse zu erzielen, muss das Wörterbuch an die Bedürfnisse der Nutzenden angepasst sein. Deshalb soll hier ein Wörterbuch für die potenzielle Zielgruppe, Studierende der Mathematik für das Lehramt an Grundschulen, mit Methoden des user-centered design erstellt und dabei ein Verfahren entwickelt und dokumentiert werden, wie sich solche Wörterbücher auch für andere mathematische Bereiche weitgehend automatisiert erstellen lassen.

Eine Evaluation der Wörterbuchnutzung erfolgt mittels einer quantitativen und qualitativen Analyse anhand von Textproduktionsaufgaben.

Von dem Dissertationsprojekt sind neue Erkenntnisse für die Hochschuldidaktik im Bereich der Mathematik sowie für die Theorie von Fachwörterbüchern zu erwarten.

Nadine Mahrholz: Anfrageverhalten auf allgemeinen und spezialisierten Suchdiensten – Eine Analyse im Kontext der bildungsbezogenen Informationssuche

Bisherige Studien zum Anfrageverhalten von Web-Nutzern sind vorwiegend logdatenbasiert und fokussieren Suchprozesse innerhalb von Suchdiensten. Teilweise wurde das Anfrageverhalten zwischen verschiedenen Suchdiensten verglichen. Die Frage, wie sich Anfrageprozesse während einer Suche über verschiedene Suchdienste hinweg entwickeln, ist dagegen bislang wenig erforscht.

Ziel des Promotionsvorhabens ist es, das Suchverhalten und speziell das Anfrageverhalten auf allgemeinen und spezialisierten Web-Suchdiensten zu untersuchen und ein Verständnis dafür zu entwickeln, welche Unterschiede und Gemeinsamkeiten es in der Nutzung der Suchdienste gibt. Verglichen werden das Nutzervokabular sowie Suchprozesse. Der Schwerpunkt liegt dabei nicht auf dem Nutzerverhalten innerhalb, sondern beim Übergang von Suchdiensten. Die Analysen sollen dazu beitragen, eine Gesamtsicht auf Suchprozesse zu erhalten und das Zusammenspiel von verschiedenen Suchdiensten besser zu verstehen. Daraus sollen Hinweise zur Optimierung von Suchdiensten abgeleitet werden.

Das Promotionsprojekt findet in Kooperation mit dem Deutschen Institut für Internationale Pädagogische Forschung (DIPF) statt. Die Untersuchungen werden exemplarisch für den Bereich der bildungsbezogenen Informationssuche durchgeführt. Methodisch fußt das Vorhaben auf einer Kombination von Logdatei-Analysen und Nutzertests.

Heike Stadler: Qualitätsverbesserung der morphosyntaktischen Annotation deutscher Textkorpora

Die maschinelle Auszeichnung digitaler Textkorpora mit linguistischen Informationen wird von computerlinguistischen Werkzeugen wie morphologischen Analysesystemen, Part-of-Speech Taggern, Lemmatisierern oder Parsern durchgeführt. Die morphosyntaktische Annotation der einzelnen Wortformen umfasst die Bestimmung der Flexion, die Lemmatisierung und die Ermittlung der Wortart. Die durchschnittliche Fehlerrate von ca. 2-5% in der morphosyntaktischen Annotation verteilt sich überwiegend auf unbekannte Wortformen und Homographen, beruht aber auch auf der falschen Zuordnung von Lemmata, POS-Tags und Flexionsangaben sowie auf der Bereitstellung von im Deutschen nicht existenten Lemmaformen oder unplausiblen morphologischen Zerlegungen. Durch den Trend in den Geisteswissenschaften zur empirischen Forschung, der stetig wachsenden Bedeutung von Information Retrieval, Text Mining und sprachverarbeitenden Systemen wie der maschinellen Übersetzung gewinnt die Auszeichnung digitaler Textkorpora mit linguistischen Informationen zunehmend an Relevanz. 

Das Ziel der Dissertation ist eine möglichst hohe Akkuratheit der morphosyntaktischen Annotation deutscher Textkorpora. Über die Klassifizierung und Evaluierung der Ursachen inkorrekter morphosyntaktischer Auszeichnungen werden geeignete Verfahren zur Verbesserung der linguistischen Korpusannotation ermittelt. Die entwickelten Methoden zur Verbesserung der morphosyntaktischen Annotation deutscher Textkorpora sollen als Open-Source-Verfahren und -Daten zur Verfügung gestellt werden, in Form von Trainingskorpora, großen korpusgenerierten Lexika und regelbasierten Werkzeugen. Das Forschungsvorhaben wird in Kooperation mit dem Institut für Deutsche Sprache, Mannheim, durchgeführt, das mit dem Deutschen Referenzkorpus über die größte digitale deutsche Textsammlung verfügt.