Die Erschließung heterogener Textquellen für die Digital Humanities
author(s) | Fritz Kliche |
title | Die Erschließung heterogener Textquellen für die Digital Humanities |
publication type | Buch / Monographie / Herausgeberschaft |
publisher | Universitätsverlag Hildesheim |
year | 2020 |
pages | 314 |
digital object identifier (doi) | DOI: 10.18442/152 |
URL | https://hildok.bsz-bw.de/frontdoor/index/index/docId/1138 |
note | Hildesheim, Univ., Diss. 2020 |
abstract |
Zusammenfassung Sammlungen von Textdaten können oft als semi-strukturierte Daten beschrieben werden, die sich in strukturelle Einheiten segmentieren lassen, in denen Elemente eines impliziten Schemas erkannt und in ein strukturiertes Format überführt werden können. Für diese Erschließung wird eine Software vorgestellt, die Funktionen für indikatorbasierte Regeln sowie zur Konsistenzprüfung und Bereinigung (z. B. von Textdubletten) der entstehenden Korpusdaten anbietet. Die Ergebnisse können in acht Formate exportiert werden, womit die Software als Bindeglied zwischen verfügbaren Textdaten und dem Einsatz aktueller Verfahren der Digital Humanities fungiert.
Collections of text data can often be described as semi-structured data which can be segmented into structural units containing elements of an implicit schema which can be converted into a structured format. For this processing pipeline a software is presented which includes functions for indicator-based rules as well as consistency checks and data cleansing methods (e.g., removal of duplicate entries) for the generated corpus data. The results can be exported into eight data formats. Thus, the software is a link between available text data and the application of current tools and methods in the field of the Digital Humanities. |