2004–2008
Humboldt-Universität zu Berlin; diverse Kooperationen mit Partneruniversitäten
u.a. „WHiG - What's hard in German?“; „Kobalt-DaF“; „KanDel“
Untersuchung fortgeschrittener DaF-Lernender auf bislang ungeklärte Erwerbsphänomene. Welche Fehler machen fortgeschrittene LernerInnen des Deutschen? Wodurch unterscheiden sich Lernertexte von Texten nativer Schreiber? Wie lassen sich Korpora als Hilfsmittel in einer solchen Analyse einsetzen?
Summe aus 16 Falko-Subkorpora in ANNIS: 3067 Texte.
Unterschiedlich tief annotierte Subkorpora: CLEG13; FalkoEssayL1v2.0; falkoEssayL1v2.3; FalkoEssayL2v2.0; FalkoEssayL2v2.3; falkoEssayL2v2.4; FalkoEssayL2WHIGv2.0; FalkoGeorgetownL2v1.0; FalkoSummaryL1v1.2; FalkoSummaryL2v1.2; FalkoWHIGL2v2.1; KanDeL_cross_cohort_v2015; KanDeL_long_cohort1_v2015; KanDeL_long_cohort2_v2014; kobaltL1v1.4; kobaltL2v1.4;
Fokus auf L2-LernerInnen (bzw. L3)/ zusätzlich kleinere Vergleichsgruppen mit L1-LernerInnen.
Erhebungen innerhalb der o.g. Projekte.
Demographische Angaben:
Alter:
Geburtsjahr
Bildungsspezifische Angaben:
Sprachbiographische Angaben:
Muttersprache 1 und 2/ Fremdsprache 1 und 2. Mit jeweiliger Erfassung von gelernt seit (0=Geburt)/ Sprachanwendung seit (in Monaten)/ Sprachunterricht in der Schule/ in der Universität/ in einer Sprachschule/ Auslandsaufenthalte im Zielsprachland (in Monaten)/ Auslandsaufenthaltsort/ sprachbibliographierelevante Kommentare
Schulform:
Universität
Untersuchungsdesign:
Querschnitt
Zusätzliche Messinstrumente:
C-Test-Ergebnisse (von 100) und entsprechende Zuordnung in Niveaustufen des Deutschen
Schreibthema:
Falko-Summary: Entscheidungen/ Hermeneutik/ Realismus/ Pragmatik/ Textgrenzen/ Volksmärchen/ Valenz/ Schlaf/ Semantik/ Epoche/ Syntax/ Berlinromane. Falko-Essay: Kriminalität/ Feminismus/ Studium/ Entlohnung
Textsorte:
Zusammenfassungen von Fachtexten/ argumentative Aufsätze zu einem von vier vorgegebenen Themen aus ICLE
Originaltext:
Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar
Glättung der Originaltexte/Fehlerannotation:
Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Zunächst Erstellung einer Lernerreferenzebene mit korrigierten Tokenisierungsfehlern. Dann manuelle Annotation in sog. Zielhypothesen. Kombination aus ZH soll großes Spektrum von Lernertextabweichungen durch implizite Annotation ohne explizite Fehlerannotation abdecken. Jedwede Abweichung zwischen Lernerreferenzebene und ZH sind markiert und haben strukturelle Klassen (Editiertags).
Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.
Orthografie
Zielhypothese 1: minimale Normalisierungsebene: Orthografie, Morphosyntax
Interpunktion
Nur im Zuge der Korrektur von Tokenisierungsfehlern (s.o.)
Grammtik
ZHverb: Zielhypothese für komplexe Verben (mit diversen Unterkategorien, die andere linguistische Annotationsebenen bedeuten)
Semantik
Zielhypothese 2: Semantik, Pragmatik, Lexik, Textebene, Referenz, informationsstrukturelle Gliederung, Stil
Pragmatik
Zielhypothese 2: Semantik, Pragmatik, Lexik, Textebene, Referenz, informationsstrukturelle Gliederung, Stil
Morphologie
Automatische Basisannotation: Für alle Daten Lemmata (lemma) mit dem Treetagger (Schmid 1994)
Lexik
Zusätzliche Annotationen im Falko-Essay Korpus v2.3: Fremdsprachliches Material
Syntax
Zusätzliche Annotationen im Falko-Essay Korpus v2.3: Dependenzen (nach Foth 2006)(Dependenzbäume)/Satzspannen (auf Grundlage der POS-Annotantionen)/komplexe Verben. Im Falko-Summary L2: Toplogogische Felder und syntaktische Beschreibungen/Klassifikationen
Textebene
Zusätzliche Annotationen im Falko-Essay-Korpus v2.3: Textgrenzen/ Makrostrukturebenen
Morphosyntax/Wortarten
Automatische Basisannotation: Für alle Daten Wortarten (POS) des STTS (Schiller et al. 1995)
Statische Merkmale
Korrigierte Tokenebenen (ctok)
Filtervariablen:
Korpora/Filtersuchfeld
Suchoptionen:
left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)
Aufbau der Abfrageoberfläche:
ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert
Query Result Darstellung:
Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (versch. ZH-grid), u.a. transkribierter full text (discourse) mit farblich markierten grammatischen Funktionen
Korpusabfragesprache:
AQL (frühere Versionen CQP, Registrierung notwendig)
Formate/Downloadmöglichkeiten:
Können Suchergebnisse/Korpusdaten heruntergeladen werden?
Korpus-Download der Rohdaten als Excel-Arbeitsblatt/Metadaten der Korpora als Excel-Arbeitsblatt/diverse Export-Möglichkeiten und Formate aus ANNIS (CSVExporter, CSVMultiTokExporter, GridExporter, SimpleTextExporter, TextColumnExporter, TokenExporter, WekaExporter)/Möglichkeit nach einer Suchanfrage den ensprechenden Link oder Path der Suchanfrage (share query reference link)/der jeweiligen Suchergebnisse (share match reference) zu kopieren oder in eine Website einzubauen, samt Preview der Visualisierung
Korpusnutzung/Zugang:
frei verfügbar (ANNIS Suchinterface), Rohdaten und alle Annotationen nach Unterschreibung einer Lizenzvereinbarung erhältlich unter hier