FALKO
Laufzeit
In welchem Zeitraum wurden die Korpusdaten erhoben?
2004–2008
Leitung/Kooperationspartner
Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?
Humboldt-Universität zu Berlin; diverse Kooperationen mit Partneruniversitäten
Forschungsprojekt
Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?
u.a. „WHiG - What's hard in German?“; „Kobalt-DaF“; „KanDel“
Forschungsfragen/Ziele
Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?
Untersuchung fortgeschrittener DaF-Lernender auf bislang ungeklärte Erwerbsphänomene. Welche Fehler machen fortgeschrittene LernerInnen des Deutschen? Wodurch unterscheiden sich Lernertexte von Texten nativer Schreiber? Wie lassen sich Korpora als Hilfsmittel in einer solchen Analyse einsetzen?
Gesamtgröße des Korpus
Summe aus 16 Falko-Subkorpora in ANNIS: 3067 Texte.
Subkorpora
Unterschiedlich tief annotierte Subkorpora: CLEG13; FalkoEssayL1v2.0; falkoEssayL1v2.3; FalkoEssayL2v2.0; FalkoEssayL2v2.3; falkoEssayL2v2.4; FalkoEssayL2WHIGv2.0; FalkoGeorgetownL2v1.0; FalkoSummaryL1v1.2; FalkoSummaryL2v1.2; FalkoWHIGL2v2.1; KanDeL_cross_cohort_v2015; KanDeL_long_cohort1_v2015; KanDeL_long_cohort2_v2014; kobaltL1v1.4; kobaltL2v1.4;
Fokus L1-/L2-Lerner
Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?
Fokus auf L2-LernerInnen (bzw. L3)/ zusätzlich kleinere Vergleichsgruppen mit L1-LernerInnen.
Datengrundlage
Woher stammen die Korpusdaten?
Erhebungen innerhalb der o.g. Projekte.
Metadaten zur Lernerpopulation
Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?
Demographische Angaben:
Alter:
Geburtsjahr
Bildungsspezifische Angaben:
Sprachbiographische Angaben:
Muttersprache 1 und 2/ Fremdsprache 1 und 2. Mit jeweiliger Erfassung von gelernt seit (0=Geburt)/ Sprachanwendung seit (in Monaten)/ Sprachunterricht in der Schule/ in der Universität/ in einer Sprachschule/ Auslandsaufenthalte im Zielsprachland (in Monaten)/ Auslandsaufenthaltsort/ sprachbibliographierelevante Kommentare
Schulform:
Universität
Datenerhebung
Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?
Untersuchungsdesign:
Querschnitt
Zusätzliche Messinstrumente:
C-Test-Ergebnisse (von 100) und entsprechende Zuordnung in Niveaustufen des Deutschen
Zusätzliche Informationen zu der Texterhebung
Schreibthema:
Falko-Summary: Entscheidungen/ Hermeneutik/ Realismus/ Pragmatik/ Textgrenzen/ Volksmärchen/ Valenz/ Schlaf/ Semantik/ Epoche/ Syntax/ Berlinromane. Falko-Essay: Kriminalität/ Feminismus/ Studium/ Entlohnung
Textsorte:
Zusammenfassungen von Fachtexten/ argumentative Aufsätze zu einem von vier vorgegebenen Themen aus ICLE
Datenaufbereitung
Wie wurden die Daten aufbereitet/angereichert?
Originaltext:
Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar
Glättung der Originaltexte/Fehlerannotation:
Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Zunächst Erstellung einer Lernerreferenzebene mit korrigierten Tokenisierungsfehlern. Dann manuelle Annotation in sog. Zielhypothesen. Kombination aus ZH soll großes Spektrum von Lernertextabweichungen durch implizite Annotation ohne explizite Fehlerannotation abdecken. Jedwede Abweichung zwischen Lernerreferenzebene und ZH sind markiert und haben strukturelle Klassen (Editiertags).
Elektronische Abfrageoberfläche
Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.
Linguistische Annotationen
Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?
Orthografie
Zielhypothese 1: minimale Normalisierungsebene: Orthografie, Morphosyntax
Interpunktion
Nur im Zuge der Korrektur von Tokenisierungsfehlern (s.o.)
Grammtik
ZHverb: Zielhypothese für komplexe Verben (mit diversen Unterkategorien, die andere linguistische Annotationsebenen bedeuten)
Semantik
Zielhypothese 2: Semantik, Pragmatik, Lexik, Textebene, Referenz, informationsstrukturelle Gliederung, Stil
Pragmatik
Zielhypothese 2: Semantik, Pragmatik, Lexik, Textebene, Referenz, informationsstrukturelle Gliederung, Stil
Morphologie
Automatische Basisannotation: Für alle Daten Lemmata (lemma) mit dem Treetagger (Schmid 1994)
Lexik
Zusätzliche Annotationen im Falko-Essay Korpus v2.3: Fremdsprachliches Material
Syntax
Zusätzliche Annotationen im Falko-Essay Korpus v2.3: Dependenzen (nach Foth 2006)(Dependenzbäume)/Satzspannen (auf Grundlage der POS-Annotantionen)/komplexe Verben. Im Falko-Summary L2: Toplogogische Felder und syntaktische Beschreibungen/Klassifikationen
Textebene
Zusätzliche Annotationen im Falko-Essay-Korpus v2.3: Textgrenzen/ Makrostrukturebenen
Morphosyntax/Wortarten
Automatische Basisannotation: Für alle Daten Wortarten (POS) des STTS (Schiller et al. 1995)
Statische Merkmale
Korrigierte Tokenebenen (ctok)
Korpusdarstellung
Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?
Filtervariablen:
Korpora/Filtersuchfeld
Suchoptionen:
left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)
Aufbau der Abfrageoberfläche:
ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert
Query Result Darstellung:
Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (versch. ZH-grid), u.a. transkribierter full text (discourse) mit farblich markierten grammatischen Funktionen
Korpusabfragesprache:
AQL (frühere Versionen CQP, Registrierung notwendig)
Dokumentationsformen
Formate/Downloadmöglichkeiten:
Können Suchergebnisse/Korpusdaten heruntergeladen werden?
Korpus-Download der Rohdaten als Excel-Arbeitsblatt/Metadaten der Korpora als Excel-Arbeitsblatt/diverse Export-Möglichkeiten und Formate aus ANNIS (CSVExporter, CSVMultiTokExporter, GridExporter, SimpleTextExporter, TextColumnExporter, TokenExporter, WekaExporter)/Möglichkeit nach einer Suchanfrage den ensprechenden Link oder Path der Suchanfrage (share query reference link)/der jeweiligen Suchergebnisse (share match reference) zu kopieren oder in eine Website einzubauen, samt Preview der Visualisierung
Korpusnutzung/Zugang:
frei verfügbar (ANNIS Suchinterface), Rohdaten und alle Annotationen nach Unterschreibung einer Lizenzvereinbarung erhältlich unter hier
Quellen
- Marc Reznicek, Anke Lüdeling und Franziska Schwantuschke (2012). Das Falko-Handbuch: Korpusaufbau und Annotationen: Version 2.01. Berlin.
- Peter Siemen, Anke Lüdeling & Frank Henrik Müller (2006): Falko – ein fehlerannotiertes Lernerkorpus des Deutschen. In: Proceedings of Konvens 2006, Konstanz.
- Posterpräsentation