FALKO: Universität Hildesheim

Verfügbare (Meta-)Daten

Laufzeit

In welchem Zeitraum wurden die Korpusdaten erhoben?

2004–2008

Leitung/Kooperationspartner

Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?

Humboldt-Universität zu Berlin; diverse Kooperationen mit Partneruniversitäten

Forschungsprojekt

Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?

u.a. „WHiG - What's hard in German?“; „Kobalt-DaF“; „KanDel“

Forschungsfragen/Ziele

Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?

Untersuchung fortgeschrittener DaF-Lernender auf bislang ungeklärte Erwerbsphänomene. Welche Fehler machen fortgeschrittene LernerInnen des Deutschen? Wodurch unterscheiden sich Lernertexte von Texten nativer Schreiber? Wie lassen sich Korpora als Hilfsmittel in einer solchen Analyse einsetzen?

Gesamtgröße des Korpus

Summe aus 16 Falko-Subkorpora in ANNIS: 3067 Texte.

Subkorpora

Unterschiedlich tief annotierte Subkorpora: CLEG13; FalkoEssayL1v2.0; falkoEssayL1v2.3; FalkoEssayL2v2.0; FalkoEssayL2v2.3; falkoEssayL2v2.4; FalkoEssayL2WHIGv2.0; FalkoGeorgetownL2v1.0; FalkoSummaryL1v1.2; FalkoSummaryL2v1.2; FalkoWHIGL2v2.1; KanDeL_cross_cohort_v2015; KanDeL_long_cohort1_v2015; KanDeL_long_cohort2_v2014; kobaltL1v1.4; kobaltL2v1.4;

Fokus L1-/L2-Lerner

Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?

Fokus auf L2-LernerInnen (bzw. L3)/ zusätzlich kleinere Vergleichsgruppen mit L1-LernerInnen.

Datengrundlage

Woher stammen die Korpusdaten?

Erhebungen innerhalb der o.g. Projekte.

Metadaten zur Lernerpopulation

Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?

Demographische Angaben:

Alter:
Geburtsjahr

Bildungsspezifische Angaben:

Sprachbiographische Angaben:
Muttersprache 1 und 2/ Fremdsprache 1 und 2. Mit jeweiliger Erfassung von gelernt seit (0=Geburt)/ Sprachanwendung seit (in Monaten)/ Sprachunterricht in der Schule/ in der Universität/ in einer Sprachschule/ Auslandsaufenthalte im Zielsprachland (in Monaten)/ Auslandsaufenthaltsort/ sprachbibliographierelevante Kommentare

Schulform:
Universität

Datenerhebung

Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?

Untersuchungsdesign:

Querschnitt

Zusätzliche Messinstrumente:

C-Test-Ergebnisse (von 100) und entsprechende Zuordnung in Niveaustufen des Deutschen

Zusätzliche Informationen zu der Texterhebung

Schreibthema:

Falko-Summary: Entscheidungen/ Hermeneutik/ Realismus/ Pragmatik/ Textgrenzen/ Volksmärchen/ Valenz/ Schlaf/ Semantik/ Epoche/ Syntax/ Berlinromane. Falko-Essay: Kriminalität/ Feminismus/ Studium/ Entlohnung

Textsorte:

Zusammenfassungen von Fachtexten/ argumentative Aufsätze zu einem von vier vorgegebenen Themen aus ICLE

Datenaufbereitung

Wie wurden die Daten aufbereitet/angereichert?

Originaltext:

Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar

Glättung der Originaltexte/Fehlerannotation:

Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Zunächst Erstellung einer Lernerreferenzebene mit korrigierten Tokenisierungsfehlern. Dann manuelle Annotation in sog. Zielhypothesen. Kombination aus ZH soll großes Spektrum von Lernertextabweichungen durch implizite Annotation ohne explizite Fehlerannotation abdecken. Jedwede Abweichung zwischen Lernerreferenzebene und ZH sind markiert und haben strukturelle Klassen (Editiertags).

Elektronische Abfrageoberfläche

Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.

Linguistische Annotationen

Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?

Orthografie

Zielhypothese 1: minimale Normalisierungsebene: Orthografie, Morphosyntax

Interpunktion

Nur im Zuge der Korrektur von Tokenisierungsfehlern (s.o.)

Grammtik

ZHverb: Zielhypothese für komplexe Verben (mit diversen Unterkategorien, die andere linguistische Annotationsebenen bedeuten)

Semantik

Zielhypothese 2: Semantik, Pragmatik, Lexik, Textebene, Referenz, informationsstrukturelle Gliederung, Stil

Pragmatik

Zielhypothese 2: Semantik, Pragmatik, Lexik, Textebene, Referenz, informationsstrukturelle Gliederung, Stil

Morphologie

Automatische Basisannotation: Für alle Daten Lemmata (lemma) mit dem Treetagger (Schmid 1994)

Lexik

Zusätzliche Annotationen im Falko-Essay Korpus v2.3: Fremdsprachliches Material

Syntax

Zusätzliche Annotationen im Falko-Essay Korpus v2.3: Dependenzen (nach Foth 2006)(Dependenzbäume)/Satzspannen (auf Grundlage der POS-Annotantionen)/komplexe Verben. Im Falko-Summary L2: Toplogogische Felder und syntaktische Beschreibungen/Klassifikationen

Textebene

Zusätzliche Annotationen im Falko-Essay-Korpus v2.3: Textgrenzen/ Makrostrukturebenen

Morphosyntax/Wortarten

Automatische Basisannotation: Für alle Daten Wortarten (POS) des STTS (Schiller et al. 1995)

Statische Merkmale

Korrigierte Tokenebenen (ctok)

Korpusdarstellung

Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?

Filtervariablen:

Korpora/Filtersuchfeld

Suchoptionen:

left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)

Aufbau der Abfrageoberfläche:

ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert

Query Result Darstellung:

Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (versch. ZH-grid), u.a. transkribierter full text (discourse) mit farblich markierten grammatischen Funktionen

Korpusabfragesprache:

AQL (frühere Versionen CQP, Registrierung notwendig)

Dokumentationsformen

Formate/Downloadmöglichkeiten:

Können Suchergebnisse/Korpusdaten heruntergeladen werden?

Korpus-Download der Rohdaten als Excel-Arbeitsblatt/Metadaten der Korpora als Excel-Arbeitsblatt/diverse Export-Möglichkeiten und Formate aus ANNIS (CSVExporter, CSVMultiTokExporter, GridExporter, SimpleTextExporter, TextColumnExporter, TokenExporter, WekaExporter)/Möglichkeit nach einer Suchanfrage den ensprechenden Link oder Path der Suchanfrage (share query reference link)/der jeweiligen Suchergebnisse (share match reference) zu kopieren oder in eine Website einzubauen, samt Preview der Visualisierung

Korpusnutzung/Zugang:

frei verfügbar (ANNIS Suchinterface), Rohdaten und alle Annotationen nach Unterschreibung einer Lizenzvereinbarung erhältlich unter hier

Quellen

Marc Reznicek, Anke Lüdeling und Franziska Schwantuschke (2012). Das Falko-Handbuch: Korpusaufbau und Annotationen: Version 2.01. Berlin.
Peter Siemen, Anke Lüdeling & Frank Henrik Müller (2006): Falko – ein fehlerannotiertes Lernerkorpus des Deutschen. In: Proceedings of Konvens 2006, Konstanz.
Posterpräsentation