KoKo
Laufzeit
In welchem Zeitraum wurden die Korpusdaten erhoben?
2010–2015
Leitung/Kooperationspartner
Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?
Institut für Fachkommunikation und Mehrsprachigkeit der Europäischen Akademie Bozen in Zusammenarbeit mit der Bildungswissenschaftlichen Fakultät der Freien Universität Bozen und dem Institut für Germanistik der Universität Innsbruck
Forschungsprojekt
Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?
„Bildungssprache im Vergleich – KoKo: korpusunterstützte Analyse der Sprachkompetenzen bei Lernenden im deutschen Sprachraum (unter besonderer Berücksichtigung des Deutschen in Südtirol)“
Forschungsfragen/Ziele
Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?
Erfassung schriftlicher Schüleräußerungen als Analysegrundlage für Aussagen über die Sprachkompetenzen bei Lernenden mit Deutsch als Erstsprache in Süd- und Nordtirol sowie im binnendeutschen Raum hinsichtlich der Verteilung der Sprachkompetenzen, sowie die Erstellung eines digitalen Lernerkorpus.
Gesamtgröße des Korpus
Gesamtkorpus: 1503 Texte. 1319 davon von SchülerInnen mit Deutsch als L1.
Subkorpora
Subkorpora nach Region (Nordtirol/Südtirol/Thüringen) und L1 (Deutsch/andere)
Fokus L1-/L2-Lerner
Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?
Fokus auf L1-Erwerb (s. Gesamtgröße).
Datengrundlage
Woher stammen die Korpusdaten?
Eigene Erhebung.
Metadaten zur Lernerpopulation
Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?
Bildungsspezifische Angaben:
Sprachbiographische Angaben:
Erstsprache/ Dialekt-Standard-Gebrauch/ Domänen des Dialekt-Standard-Gebrauchs/ Einstellungen zu Dialekt bzw. Standardsprache.
Schulform:
Ausschließlich maturaführende Schulen (Gymnasien(AHS)/ Fachoberschulen(BHS)).
Klassenstufe:
Sekundarstufe, ein Jahr vor Schulabschluss
Datenerhebung
Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?
Untersuchungsdesign:
Querschnitt
Zusätzliche Messinstrumente:
Lehrerfragebogen
Zusätzliche Informationen zu der Texterhebung
Schreibthema:
Stellungnahme zu einem Zitat von Hans Magnus Enzensberger z.T. Jugend
Textsorte:
Erörterung
Datenaufbereitung
Wie wurden die Daten aufbereitet/angereichert?
Originaltext:
Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar
Glättung der Originaltexte/Fehlerannotation:
Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Mauelle Annotationen während der Transkriptionsphase: surface features of the text, such as graphical arrangement (outline and other pretext elements, title,paragraphs, emphasis, footnotes, and postscript elements)/ self-corrections (insertions, deletions)/ emoticons and symbols/ unreadable or ambiguous words/ comment, whenever it contributes to a better understanding (Abel et al. 2014: 2417f.). Linguistische Annotationen (s.u.) wurden klassifiziert und mit einer seperaten Zielhypothese versehen.
Elektronische Abfrageoberfläche
Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.
Linguistische Annotationen
Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?
Orthografie
The classification schema for orthographical errors comprises 28 distinct categories that can be assorted to seven superordinate categories (upper/lower case errors; seperate/compound spelling errors; omnission of letters; adding of letters; confusion of letters; special cases) (Abel et al. 2014: 2417f.)
Interpunktion
6 Interpunktions-Fehlerkategorien mit jeweiligen Unterkategorien
Grammtik
597 Texte (sub-sample) wurden hinsichtlich grammatischer Fehler annotiert (orientiert sich am Falko-Korpus): Correspondence/ Correspondence referent/ Inflection/ Incompleteness/ Redundancy/ Anacoluthon/ Word order/ Not categorisable gram. Error mit zusätzlichen Unterkategorien. (Abel et al. 2014:2418)
Morphologie
Automatische Annotationen: Lemmatisierung mit IMS TreeTagger (Schmid, 1994)
Syntax
Automatische Annotationen: Sentence splitting mit IMS TreeTagger (Schmid, 1994)
Morphosyntax/Wortarten
Automatische Annotationen der Wortarten (POS-tagging)
Korpusdarstellung
Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?
Filtervariablen:
Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)
Suchoptionen:
left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)
Aufbau der Abfrageoberfläche:
ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert
Query Result Darstellung:
Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (gram.-/ tran.-/ orth.-grid)/ u.a. transkribierter full text mit farblich markierten orthographischen Fehlern
Korpusabfragesprache:
AQL
Dokumentationsformen
Formate/Downloadmöglichkeiten:
Können Suchergebnisse/Korpusdaten heruntergeladen werden?
verschiedene file bundles des Korpus sind downloadbar unter https://gitlab.inf.unibz.it/commul/koko/data/bundle/diverse
Export-Möglichkeiten aus ANNIS (WekaExporter, CSVExporter, TextExporter, GridExporter, SimpleTextExporter)/Link zu Annotationen kopierbar
Korpusnutzung/Zugang:
frei verfügbar nach CLARIN ACADEMIC END-USER LICENCE (ACA-BY-NC-NORED 1.0) - KOKO.
Verfügbar über Eurac Research Clarin Centre (ERCC), On-premise GitLab installation, ready-to-search in ANNIS
Quellen
- Abel, Andrea; Glaznieks, Aivars and Culy, Chris (2014). KoKo German L1 Learner Corpus v3, Eurac Research CLARIN Centre: hdl.handle.net/20.500.12124/12; http://www.lrec-conf.org/proceedings/lrec2014/pdf/934_Paper.pdf
- Abel, A., & Glaznieks, A. (2017). KoKo: Bildungssprache im Vergleich: korpusunterstützte Analyse der Sprachkompetenz bei Lernenden im deutschen Sprachraum; ein Ergebnisbericht
- Abel, A., Glaznieks, A., Nicolas, L., & Stemle, E. (2014, May). KoKo: an L1 Learner Corpus for German. In LREC (pp. 2414-2421).