Digitizing Endemann

Montag, 03. März 2025 um 15:05 Uhr

Digitalisierung eines historischen Wörterbuchs: Endemanns (1911) Wörterbuch der Sothosprache

Das Projekt zielt auf die Digitalisierung von Karl Endemanns Wörterbuch der Sothosprache, einem einzigartigen mehrsprachigen Wörterbuch, das 1911 veröffentlicht wurde und (mono-direktionale) Übersetzungen von Wörtern aus Sotho-Sprachen und -Dialekten ins Deutsche beinhaltet. Dieses Wörterbuch ist wegen seiner ausführlichen Beschreibungen für die linguistische und kulturelle Forschung von unschätzbarem Wert, bleibt jedoch weitgehend unzugänglich, da es zum einen  nur noch drei bekannte Exemplare gibt und da außerdem englischsprachigen ForscherInnen (nur wenige, die sich mit den Sotho-Sprachen und -Dialekten beschäftigen, sprechen auch Deutsch) die entsprechenden Übersetzungen fehlen.

Projektteam (ohne besondere Reihenfolge): Universität Hildesheim (G. Faaß, PhD/Universität von Pretoria), Universität of South Africa, UNISA (Profs em. S. Bosch, M.L. Mojapelo und I. Kosch), University of Pretoria, UP (Profs. em. D.J. Prinsloo und E. Taljard), Mandela University (Dr. J. Sibeko), University of the Free State (Dr. E. Malete) und SADiLaR, dem südafrikanischen Zentrum für digitalisierte linguistische Ressourcen (M. Setaka und M. Griesel). 

Projektziele: Wir werden Teile des Wörterbuchs für ein breiteres Publikum in Form eines multilingualen und bi-direktionalen E-Wörterbuchs zugänglich machen. Aus Kapazitätsgründen planen wir nicht, das gesamte Wörterbuch zu digitalisieren, sondern haben Artikel zu Themen wie z.B. Pflanzen, Wetterphänomene, Menschen und ihre Beziehungen etc. ausgewählt. 

Aktueller Stand (Februar 2025): Die Daten wurden mittels Texterkennung (OCR) maschinenlesbar gemacht. In einer ersten Charge wurden bisher ca. 300 Wörterbuchartikel zusätzlich mit grammatikalischen Daten versehen und alle deutschsprachigen Daten vollständig manuell ins Englische übersetzt. Außerdem bewerten wir die künftigen Einträge für die Sotho-Sprachen aus heutiger Sicht auf Basis der englischen Übersetzungen. Alle gesammelten Daten werden in Tabellen gespeichert, aus denen später die Datenbank als Basis für das neu zu entwickelnde E-Wörterbuch entstehen wird. Da alle Arbeiten ohne besondere Finanzierung erfolgen, gibt es keinen konkreten Zeitplan, wir zielen jedoch auf eine erste Fassung des online-Wörterbuchs in 2026.

Die derzeitigen Bemühungen konzentrieren sich auf die Entwicklung der Datenbank und der Herstellung einer zweiten Charge von Daten.

Sponsoren/UnterstützerInnen: Wir sind sehr dankbar für die Erlaubnis von DeGruyter Brill, Teile des Wörterbuchs kostenlos zu veröffentlichen, für die Finanzierung der OCR-Aktivitäten durch die Deutsche Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL) sowie für die Finanzierung von Workshops durch die teilnehmenden Institutionen.

Weitere Informationen finden sich auf der (englischsprachigen) Webseite: https://www.uni-hildesheim.de/digitizing-endemann. Ansprechpartnerin für den deutschsprachigen Raum ist Gertrud Faaß vom Institut für Informationswissenschaft und Sprachtechnologie (gertrud.faass@uni-hildesheim.de).