Online-Wörterbücher, die den aktiven Sprachgebrauch fördern: das multilinguale Projekt PhraseBase bereitet Sprache in Zusammenhängen auf

mardi, 19. octobre 2021 um 17:21 Uhr

Online-Wörterbücher für Lerner zu entwickeln, deren Einträge immer auch in ihrem Kontext dargestellt werden, das ist das Ziel des Projekts PhraseBase, an dem ein Forschungsteam der Universitäten Hildesheim, Heidelberg und Modena seit rund fünf Jahren forscht. Ein Drittmittelantrag ist aktuell in Vorbereitung. Das Projekt ist multilingual angelegt, eine wichtige Voraussetzung, um eine spätere Übertragbarkeit des zugrundeliegenden wissenschaftlichen Modells auch in andere Sprachen zu gewährleisten, sagt Dr. habil. Laura Giacomini vom Institut für Informationswissenschaft und Sprachtechnologie der Universität Hildesheim.

„Diese Art von Lernerwörterbüchern richtet sich an Nicht-Muttersprachler, die bereits grundlegende Kenntnisse in der jeweiligen Sprache haben“, erläutert die Wissenschaftlerin. Wörter stehen immer in einem phraseologischen Kontext mit Bedeutungen, usuellen Wortverbindungen und Verwendungsbeispielen. Gearbeitet wird parallel in der deutschen, englischen und italienischen Sprache. Zunächst sind die Wörterbücher jeweils für sich genommen einsprachig aufgebaut, die einmal erstellten Datenbanken könnten aber später auch für Übersetzungs-Wörterbücher verwendet werden, sagt Giacomini. „Sie können auch in unterschiedlichen Applikationen eingesetzt werden, solche Anwendungsoptionen sind bei der Entwicklung von vornherein mitgedacht.“

„Elektronische Wörterbücher sind online-Wissensquellen, die nach Prinzipien der Benutzerorientierung, aber auch als ungleich flexibler abfragbare Datensammlungen konzipiert werden, als es gedruckte Werke sein können.“

Davor aber steht eine Menge Theoriearbeit, von der bisher erst ein Bruchteil abgeschlossen ist, berichtet die Forscherin. Das Projekt PhraseBase ist angesiedelt an der Schnittstelle zwischen Lexikographie, Fremdsprachendidaktik und Computerlinguistik. Aus einer Vielzahl von digitalen Textsammlungen, sogenannten Korpora, entnehmen Computerprogramme (Korpusanalysetools) die zum Aufbau des Wörterbuchs benötigten lexikalischen Daten jeweils in deren Sinnzusammenhang.

„Dennoch muss die computergesteuerte Vorarbeit anschließend manuell durch Muttersprachler validiert werden“, sagt Giacomini. Der Fokus des Forschungsprojekts liegt zunächst vor allem auf Bewegungsverben, die nach Wortfeldern zusammengefasst werden. Ein Beispiel in der deutschen Sprache wäre das Wort lenken, welches dann in einem Satz wie „Er lenkt das Auto nach rechts“ eingeordnet und entsprechend definiert werden kann. Solche phraseologisch aufgebaute Lernerwörterbücher sind noch längst nicht für alle Sprachen vorhanden.

Der im Forschungsprojekt PhraseBase aufbereitete Wortschatz soll am Ende etwa 20.000 Wörter pro Sprache umfassen – eine vergleichsweise noch geringe Zahl, sagt Giacomini. Ein Standard-Duden beispielsweise hat über 100.000 Einträge. Entscheidend ist jedoch nicht so sehr die Anzahl der Einträge als ihre Relevanz für den aktiven Sprachgebrauch.

Zur Person: Dr. habil. Laura Giacomini

Die italienische Muttersprachlerin Dr. Laura Giacomini lehrt und forscht an den Universitäten Hildesheim (seit 2016) und Heidelberg. 2019 habilitierte sich die Wissenschaftlerin am Institut für Informationswissenschaft und Sprachtechnologie.

Mehr zum Thema

Zum zweiten internationalen PhrasaLex-Workshop im Juli 2021, organisiert vom Institut für Informationswissenschaft und Sprachtechnologie, kamen rund 100 Teilnehmerinnen und Teilnehmern und 18 Referentinnen und Referenten aus Europa, Asien und Südamerika online zusammen. Die Bezeichnung „PhrasaLex“ ist abgeleitet von Phraseologie, also der Beschreibung von Wortverbindungen, und Lexikographie, der Theorie und Praxis der Erstellung von Wörterbüchern.

Die Folien zu den Tagungsvorträgen sind hier abrufbar


Dr. habil Laura Giacomini forscht am Institut für Informationswissenschaft und Sprachtechnologie am Projekt PhraseBase, in dessen Rahmen sie im Juli 2021 auch die Tagung PhrasaLex organisiert hat.