2010–2015
Institut für Fachkommunikation und Mehrsprachigkeit der Europäischen Akademie Bozen in Zusammenarbeit mit der Bildungswissenschaftlichen Fakultät der Freien Universität Bozen und dem Institut für Germanistik der Universität Innsbruck
„Bildungssprache im Vergleich – KoKo: korpusunterstützte Analyse der Sprachkompetenzen bei Lernenden im deutschen Sprachraum (unter besonderer Berücksichtigung des Deutschen in Südtirol)“
Erfassung schriftlicher Schüleräußerungen als Analysegrundlage für Aussagen über die Sprachkompetenzen bei Lernenden mit Deutsch als Erstsprache in Süd- und Nordtirol sowie im binnendeutschen Raum hinsichtlich der Verteilung der Sprachkompetenzen, sowie die Erstellung eines digitalen Lernerkorpus.
Gesamtkorpus: 1503 Texte. 1319 davon von SchülerInnen mit Deutsch als L1.
Subkorpora nach Region (Nordtirol/Südtirol/Thüringen) und L1 (Deutsch/andere)
Fokus auf L1-Erwerb (s. Gesamtgröße).
Eigene Erhebung.
Bildungsspezifische Angaben:
Sprachbiographische Angaben:
Erstsprache/ Dialekt-Standard-Gebrauch/ Domänen des Dialekt-Standard-Gebrauchs/ Einstellungen zu Dialekt bzw. Standardsprache.
Schulform:
Ausschließlich maturaführende Schulen (Gymnasien(AHS)/ Fachoberschulen(BHS)).
Klassenstufe:
Sekundarstufe, ein Jahr vor Schulabschluss
Untersuchungsdesign:
Querschnitt
Zusätzliche Messinstrumente:
Lehrerfragebogen
Schreibthema:
Stellungnahme zu einem Zitat von Hans Magnus Enzensberger z.T. Jugend
Textsorte:
Erörterung
Originaltext:
Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar
Glättung der Originaltexte/Fehlerannotation:
Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Mauelle Annotationen während der Transkriptionsphase: surface features of the text, such as graphical arrangement (outline and other pretext elements, title,paragraphs, emphasis, footnotes, and postscript elements)/ self-corrections (insertions, deletions)/ emoticons and symbols/ unreadable or ambiguous words/ comment, whenever it contributes to a better understanding (Abel et al. 2014: 2417f.). Linguistische Annotationen (s.u.) wurden klassifiziert und mit einer seperaten Zielhypothese versehen.
Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.
Orthografie
The classification schema for orthographical errors comprises 28 distinct categories that can be assorted to seven superordinate categories (upper/lower case errors; seperate/compound spelling errors; omnission of letters; adding of letters; confusion of letters; special cases) (Abel et al. 2014: 2417f.)
Interpunktion
6 Interpunktions-Fehlerkategorien mit jeweiligen Unterkategorien
Grammtik
597 Texte (sub-sample) wurden hinsichtlich grammatischer Fehler annotiert (orientiert sich am Falko-Korpus): Correspondence/ Correspondence referent/ Inflection/ Incompleteness/ Redundancy/ Anacoluthon/ Word order/ Not categorisable gram. Error mit zusätzlichen Unterkategorien. (Abel et al. 2014:2418)
Morphologie
Automatische Annotationen: Lemmatisierung mit IMS TreeTagger (Schmid, 1994)
Syntax
Automatische Annotationen: Sentence splitting mit IMS TreeTagger (Schmid, 1994)
Morphosyntax/Wortarten
Automatische Annotationen der Wortarten (POS-tagging)
Filtervariablen:
Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)
Suchoptionen:
left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)
Aufbau der Abfrageoberfläche:
ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert
Query Result Darstellung:
Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (gram.-/ tran.-/ orth.-grid)/ u.a. transkribierter full text mit farblich markierten orthographischen Fehlern
Korpusabfragesprache:
AQL
Formate/Downloadmöglichkeiten:
Können Suchergebnisse/Korpusdaten heruntergeladen werden?
verschiedene file bundles des Korpus sind downloadbar unter https://gitlab.inf.unibz.it/commul/koko/data/bundle/diverse
Export-Möglichkeiten aus ANNIS (WekaExporter, CSVExporter, TextExporter, GridExporter, SimpleTextExporter)/Link zu Annotationen kopierbar
Korpusnutzung/Zugang:
frei verfügbar nach CLARIN ACADEMIC END-USER LICENCE (ACA-BY-NC-NORED 1.0) - KOKO.
Verfügbar über Eurac Research Clarin Centre (ERCC), On-premise GitLab installation, ready-to-search in ANNIS