Deutschlernerkorpora – Zusammenfassung


FALKO

Humboldt-Universität zu Berlin: FALKO

„Die Korpora der Falko-Familie besteht aus mehreren Einzelkorpora. In den vergangenen Jahren ist die Datenmenge vor allem durch das Hinzukommen neuer Korpusdaten mit leicht veränderten Spezifikationen der Lerner- und Erhebungsparameter erheblich gewachsen.“ 1

In diesem nicht-hierarchisch strukturierten, tief annotierten und frei verfügbaren Korpus mit einer multilayer Architektur können in einer ANNIS3-Suchmaske (aktuelle Version) diverse Anfragen in AQL (Annotation Query Language) gestellt, sowie umfangreiche Metadaten zu den Texten gefunden und heruntergeladen werden. Die Texte der verschiedenen Subkorpora setzen sich aus argumentativen Aufsätzen und Zusammenfassungen fortgeschrittener DaF-LernerInnen mit multiplen L1-Hintergründen zusammen. Die Erhebungsumstände und Annotationsrichtlinien sind ausführlich im Falko-Handbuch beschrieben.

1Humboldt-Universität zu Berlin (2019). Die Falko-Familie: einzelne Korpora. Verfügbar unter: hier


KoKo

Korpus Südtirol Europäische Akademie Bozen (EURAC): Teilprojekt Bildungssprache

„Das Projekt, KoKo: Bildungssprache im Vergleich: korpusunterstützte Analyse der Sprachkompetenz bei Lernenden im deutschen Sprachraum‘ wurde im Zeitraum 2011 bis 2015 unter der Leitung des Instituts für Angewandte Sprachforschung von Eurac Research (Andrea Abel) in Zusammenarbeit mit der Bildungswissenschaftlichen Fakultät der Freien Universität Bozen (Annemarie Saxalber) durchgeführt. […] Vorrangig ging es darum, empirisch begründete und detaillierte Aussagen über die Schreibkompetenzen von SchülerInnen mit Deutsch als Erstsprache am Ende der schulischen Laufbahn zu treffen (Fokus: bildungsprachlicher Kontext & schulisch geprägte Schriftlichkeit). […] Ein weiteres Ziel des Projekts lag daher darin, entsprechende Kontextvariablen zu analysieren und dazu zum einen allgemeine Merkmale (u. a. Geschlecht, Schultyp, Region), zum anderen sprachbiographische Merkmale (u. a. Erstsprache, Dialekt-Standard-Gebrauch) eigens zu untersuchen. Außerdem bestand ein wichtiges Projektziel im technologischen und dokumentarischen Bereich. Es sollte ein digitales Lernerkorpus aufgebaut werden, d. h. eine Sammlung von Schülertexten (sogenannten Sprachdaten) mit den dazugehörigen Kontextvariablen (sogenannten Metadaten), das nicht nur als Datengrundlage für dieses Projekt dienen sollte, sondern auch für Folge- und Langzeitstudien zur Verfügung steht. Mit computer- und korpuslinguistischen Methoden wird die langfristige Sicherung und Nutzbarkeit der Sprach- und deren Metadaten im Rahmen der am Eurac Research bestehenden Korpusinfrastruktur gewährleistet.“ 2

Die kürzlich veröffentlichte dritte Version des Korpus ist nun auch über eine ANNIS-Suchmaske zugänglich und besitzt eine multilayer Architektur mit diversen Annotationsebenen.

2Abel, A., & Glaznieks, A. (2017). KoKo: Bildungssprache im Vergleich: korpusunterstützte Analyse der Sprachkompetenz bei Lernenden im deutschen Sprachraum; ein Ergebnisbericht. S. 5.


Litkey

Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition

Dieses Korpus basiert auf einer Datenerhebung von Frieg (2014), aus einer Längsschnittstudie, in der 1922 Texte aus der 2.–4. Klasse zu Bildergeschichten erhoben wurden. Im Forschungsprojekt Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition (Litkey) wurden diese Texte inkl. Metadaten transkribiert und mit Zielhypothesen versehen, die zur weiteren automatischen Annotation dienten. Der Fokus dieses Korpus liegt auf der Annotation orthographischer Fehler, weshalb die Zielhypothese und der Originaltext zeichenweise abgeglichen wurden, um sie mit strukturellen Wortinformationen (phonologischen, silbischen und morphologischen) zu versehen, sowie orthographische Kerneigenschaften (KOF) des Deutschen (und deren Verletzung) im Korpus zu annotieren. Das Korpus liegt in verschiedenen Formaten vor und ist u.a. über ANNIS verfügbar.3

3vgl. Laarmann-Quante, R., Ortmann, K., Ehlert, A., Masloch, S., Scholz, D., Belke, E. & Dipper, S. (2019). The Litkey Corpus: A richly annotated longitudinal corpus of German texts written by primary school children. Behavior Research Methods.Verfügbar unter: hier


FD-LEX

Mercatorinstitut: Forschungsdatenbank Lernertexte (FD-LEX)

„Die Forschungsdatenbank Lernertexte ist ein gemeinsames Projekt des Mercator-Instituts für Sprachförderung und Deutsch als Zweitsprache der Universität zu Köln (Prof. Dr. Michael Becker-Mrotzek) und der Professur für Pädagogische Psychologie der Leibniz-Universität Hannover (Prof. Dr. Joachim Grabowski), gefördert von der Stiftung Mercator. Die webbasierte Datenbank ermöglicht die Recherche in einem Textkorpus aus 5.628 Lernerinnen- und Lernertexten. Die Texte wurden im Rahmen des BMBF-Projekts Unterrichtliche Förderung von Teilkomponenten der Schreibkompetenz in fünften und neunten Klassen an Gesamtschulen und Gymnasien in Köln und Hannover erhoben. Diese Schreibprodukte werden als orthografisch normalisierte Transkripte sowie als Scans der handschriftlichen Originale zusammen mit Metadaten der Schülerinnen und Schüler, zum Beispiel sprachbiographische Informationen und sprachbezogene Fähigkeitskennwerte, bereitgestellt.“ 4

Die Daten können mithilfe von vorgegebenen Filtervariablen durchsucht und (inkl. der Originaltexte) heruntergeladen werden. Vorab müssen die Nutzungsrechte im Rahmen einer Registrierung akzeptiert werden. Die Metadaten sind gut aufbereitet und verfügbar, allerdings gibt es keine weiteren Hinweise auf Annotationen der Texte an sich.

4FD-LEX (2018). Forschungsdatenbank Lernertexte. Herausgegeben von Michael Becker-Mrotzek und Joachim Grabowski. Köln: Mercator-Institut für Sprachförderung und Deutsch als Zweitsprache. Verfügbar unter: hier


Kompost

Ermittlung von Indikatoren für die Kompetenzeinschätzung von Schülertexten mittels computerlinguistischer Methoden

„Als Ausgangsbasis des Projekts Ermittlung von Indikatoren für die Kompetenzeinschätzung von Schülertexten mittels computerlinguistischer Methoden und dialogische Entwicklung eines Prototyps für die computergestützte Analyse von Aufsätzen steht eine Vielzahl an Aufsätzen, Testergebnissen und Hintergrundinformationen von Schülern aus der Hamburger Längsschnittuntersuchung KESS zur Verfügung. […] Die in diesem Projekt ermittelten Indikatoren, die auf eine besonders gute oder schlechte sprachliche Kompetenz hinweisen, sollen Eingang in eine Analysesoftware finden, die helfen kann, förderbedürftige Schüler bereits sehr früh zu identifizieren und sie angemessen zu fördern. […] Die in KESS erhobenen Aufsätze wurden in ein einheitliches Format gebracht und zu einem Textkorpus zusammengestellt, das derzeit 1133, 125, 1705 bzw. 1196 Aufsätze in den Klassen 4, 7, 8 bzw. 10 umfasst. Zur späteren Auswertung wurden verschiedene Annotationskategorien erarbeitet und für einen Teil des Korpus wurden Zielhypothesen und Fehlerspezifikationen manuell annotiert sowie eine automatische Annotation von Wortarten mittels Treetagger vorgenommen.“ 5

Das Korpus ist scheinbar noch nicht veröffentlicht, sodass nur wenige Informationen zum Format des Korpus vorliegen.

5BMBF (2019). Ermittlung von Indikatoren für die Kompetenzeinschätzung von Schülertexten mittels computerlinguistischer Methoden. Verfügbar unter: hier


NaSch1

Narrative Schreibkompetenz in Klasse 1

„Im DFG-Projekt NaSch1 (Narrative Schreibkompetenz in Klasse 1) werden Schreibfähigkeiten von Erstklässlern auf breiter Basis analysiert, indem die Textqualität von 540 Briefen anhand zweier fundierter Bewertungsinstrumente (analytisch und holistisch) eingeschätzt und in Abhängigkeit von individuellen, familiären und unterrichtlichen Bedingungen untersucht wird. Die Daten stammen aus dem BMBF-Projekt PERLE, das die Persönlichkeits- und Lernentwicklung von Grundschulkindern analysiert.“ 6

Die Texte des Korpus sind zwar digitalisiert (Transkription und Reinschrift der Originaltexte), aber, laut Angaben von Frau Pohlmann-Rother, nicht zusammengefasst oder publiziert.

6Kürzinger, A., & Pohlmann-Rother, S. (2015). Möglichkeiten einer objektiven und reliablen Bestimmung von Textqualität im Anfangsunterricht. Methodisches Vorgehen und deskriptive Befunde aus dem Projekt NaSch1. Didaktik Deutsch: Halbjahresschrift für die Didaktik der deutschen Sprache und Literatur, 21(38). S. 61.


TSK

Text-Sorten-Kompetenz

„Das echtlongitudinale Korpus umfasst die Jahrgangsstufen 2., 3., und 4. Klasse mit jeweils 39 Autoren und Autorinnen, die zu einem erzählenden, einem berichtenden, einem instruierenden, einem beschreibenden und einem argumentativen Schreibauftrag Texte verfasst haben. Insgesamt sind 585 Texte entstanden. 16 der ursprünglich 39 Autoren haben – allerdings nur widerwillig – unsere Schreibaufträge ein viertes Mal bearbeitet und zwar in der 6. Klasse.“ 7

Der Korpus besteht aus einem downloadbaren PDF-Dokument einer tabellarischen Übersicht der (orthographisch geglätteten) SchülerInnen-Texte. Es gibt wenig Angaben zu den Metadaten und keinerlei Annotationen, allerdings erlaubt die Monographie einige Rückschlüsse auf eine Metadatenerhebung.

7Augst, G., Disselhoff, K., Henrich, A., Pohl, T., & Völzing, P. L. (2007). Text-Sorten-Kompetenz. Eine echte Longitudinalstudie zur Entwicklung der Textkompetenz im Grundschulalter. Frankfurt/M. et al.: Lang. Verfügbar unter: hier