Computerlinguistik & Sprachtechnologie

mercredi, 21. décembre 2011 um 17:15 Uhr

Kann ein Computer Goethes Faust „zusammenfassen“? Nein, Literatur ist zu komplex, zu vielschichtig, sagt Prof. Dr. Ulrich Heid. Elektronische Textsammlungen und elektronische Wörterbücher zählen zu seinen Forschungsgegenständen.

Das Land Niedersachen unterstützt den Aufbau einer Computer-Infrastruktur an der Stiftung Universität Hildesheim, mit der es Prof. Dr. phil. habil. Ulrich Heid und seinen Mitarbeitern möglich sein wird, Eigenschaften von sprachlichen Einheiten – zum Beispiel das Verhalten bestimmter Wörter und Wortverbindungen im Satzzusammenhang – anhand sehr großer Textmengen zu untersuchen.

„Wir wollen in den kommenden Jahren einen Schwerpunkt auf die Entwicklung neuartiger Wörterbücher legen, die sowohl für Maschinen als auch für den Menschen nutzbar sind“, sagt Heid, der seit einem Jahr am Institut für Informationswissenschaft und Sprachtechnologie arbeitet. Er war Gastwissenschaftler am International Computer Science Institute in Berkeley, Californien, und ist seit 2005 Fellow des Institute for Advanced Study der südafrikanischen Universität Stellenbosch. Seine Forschungen sind in Projekten erfolgt, die u.a. von der Deutschen Forschungsgemeinschaft, der EU-Kommission oder dem Bundesministerium für Bildung und Forschung unterstützt wurden. Isa Lange sprach mit dem Professor für Sprachtechnologie und Computerlinguistik.

Interview

Wie würden Sie einem Studienanfänger Ihr Forschungsgebiet erklären?

Prof. Heid: Wir möchten verstehen, wie Sprachen funktionieren, und zwar so präzise, dass ein Computer so programmiert werden kann, dieses Sprachverstehen zu simulieren. Dabei richten wir unser Augenmerk auf Wörter und Wortbildungen. Längerfristig auch auf Sätze, Dialoge und Texte.

Ein Forschungsschwerpunkt in Hildesheim ist der Schnittbereich zwischen Informationswissenschaft und Sprachtechnologie – woran arbeiten Sie derzeit?

Die Informationswissenschaftler arbeiten u.a. an der Identifizierung von Meinungen und Bewertungen, etwa in Foren: welche Ansichten haben die Leute über ein Produkt oder eine Dienstleistung? Ein Mitarbeiter, Herr Dr. Ruppenhofer, kümmert sich aus sprachwissenschaftlicher Sicht um dieselbe Frage, und er entwickelt Methoden, um für Wörter und Wortbindungen, aber auch im Satzkontext, positive und negative Bewertungen zu finden. Für seine Habilitation arbeitet er an detaillierten automatischen Werkzeugen und Ressourcen dafür.

Welche Chance liegt in der Kombination von diesen zwei – eigentlich sehr gegensätzlichen – Gebieten: Sprache (etwas sehr „Menschliches“) und Technologie?

Wie schon gesagt: durch den Versuch, sprachliche Phänomene für den Rechner „verständlich“ zu machen, verstehen wir das Wunder der menschlichen Sprachkommunikation besser. Sehr viel von dem was wir sagen ist mehrdeutig, unvollständig, zum Teil fehlerhaft – und doch verständlich. Wie ist das möglich? Und dann kann Sprachtechnologie auch in der Praxis sehr nützlich sein: Wenn ich die Hände am Lenkrad habe und auf die Straße schauen muss, ist eine Sprachsteuerung, z.B. von Unterhaltungsmedien, Navigationssystem etc. hilfreich. Oder elektronische Wörterbücher und Sprachlernwerkzeuge: ich kann überall da nachschlagen oder lernen, wo ein Rechner ist. Manche Sprachen sind für Verlage kommerziell nicht interessant: dann hilft nur ein online-Wörterbuch. Das erleben wir gerade in einer Kooperation mit Südafrika: dort sind Wörterbücher auf dem Mobiltelefon ein großes Thema. Meine Mitarbeiterin, Frau Dr. Faaß, hat Teile der afrikanischen Sprache Nord-Sotho für den Rechner beschrieben: wir beantragen gerade ein Kooperationsprojekt mit drei südafrikanischen Unis zu Wörterbüchern.

Kann eine Maschine ein literarisches Werk „zusammenfassen“ oder bleibt diese Fähigkeit dem Menschen vorbehalten?

Einen Artikel aus einer Fachzeitschrift automatisch zusammenzufassen – dafür gibt es erfolgreiche Forschung, z.B. in Cambridge. Das ist auch wichtig, weil z.B. die Medizin- und Pharmaforschung in Fachpublikationen ertrinkt: soviel wie publiziert wird, können Sie gar nicht lesen. Aber Goethes Faust? Nein. Literatur ist zu komplex, zu vielschichtig. Denken Sie an Anspielungen, Bezüge auf andere Texte, an indirekt Ausgedrücktes – das setzt so viel Wissen über die Welt, soviel Erfahrung voraus, dass niemand es schafft, dieses Wissen in eine Maschine zu stecken.

Sie erforschen in Hildesheim das Verhalten bestimmter Wörter und Wortverbindungen im Satzzusammenhang, anhand großer Korpora. Wie funktioniert das?

Eine Grundlage ist, dass wir nach Regeln schreiben und sehr oft dieselben Versatzstücke der Sprache benutzen. Also tauchen diese Versatzstücke in Texten sehr oft auf. Wir sammeln große Textmengen, z.B. ganze Jahrgänge von Tageszeitungen, und wir suchen mit Hilfe von Mustern und von Statistik nach solchen Versatzstücken: dann kommt heraus, dass man einen Verdacht hat oder hegt, dass man sagt ein Verdacht drängt sich auf usw. Dass wir solche Wortkombinationen finden, klingt vielleicht zunächst trivial – weil jeder sie kennt: aber genau solches Wissen braucht der Rechner. Die Techniken dazu vermitteln wir in unseren Seminaren.

Computerlinguistik – welche Perspektiven sehen Sie?

Computerlinguisten haben – wie Informationswissenschaftler – eine Qualifikation im geisteswissenschaftlichen Arbeiten und gleichzeitig in informatischen Methoden. Das heißt, sie verstehen Gesprächspartner aus beiden „Fachkulturen“. Das ist ein Vorteil: viele arbeiten bei Softwareunternehmen, in Unternehmensberatungen, aber auch bei Verlagen oder in Sprachendiensten großer Unternehmen oder Institutionen.

Das Fach Computerlinguistik ist noch relativ jung; aber einige seiner sprachtechnologischen Produkte werden bereits eingesetzt: Dialogsysteme, maschinelle Übersetzung, Terminologiesuche, elektronische Wörterbücher. Es wird in Zukunft immer mehr Bedarf geben. Nicht zuletzt auch als Hilfsmittel für die Geisteswissenschaftler: wir haben z.B. vor zwei Jahren mit Juristen zusammen aus Fachzeitschriften Material für ein Fachwörterbuch zum Markenrecht herausgesucht; ebenso reden wir mit Kollegen aus der Politikwissenschaft über die Nutzung unserer Methoden. Uns wird sicher nicht langweilig – Sprache hält immer Überraschungen bereit.

Vielen Dank für das Gespräch.

Lesen Sie das Interview im Uni-Journal Dezember 2011