KoKo



Laufzeit

In welchem Zeitraum wurden die Korpusdaten erhoben?

2010–2015


Leitung/Kooperationspartner

Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?

Institut für Fachkommunikation und Mehrsprachigkeit der Europäischen Akademie Bozen in Zusammenarbeit mit der Bildungswissenschaftlichen Fakultät der Freien Universität Bozen und dem Institut für Germanistik der Universität Innsbruck


Forschungsprojekt

Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?

„Bildungssprache im Vergleich – KoKo: korpusunterstützte Analyse der Sprachkompetenzen bei Lernenden im deutschen Sprachraum (unter besonderer Berücksichtigung des Deutschen in Südtirol)“


Forschungsfragen/Ziele

Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?

Erfassung schriftlicher Schüleräußerungen als Analysegrundlage für Aussagen über die Sprachkompetenzen bei Lernenden mit Deutsch als Erstsprache in Süd- und Nordtirol sowie im binnendeutschen Raum hinsichtlich der Verteilung der Sprachkompetenzen, sowie die Erstellung eines digitalen Lernerkorpus.


Gesamtgröße des Korpus

Gesamtkorpus: 1503 Texte. 1319 davon von SchülerInnen mit Deutsch als L1.


Subkorpora

Subkorpora nach Region (Nordtirol/Südtirol/Thüringen) und L1 (Deutsch/andere)


Fokus L1-/L2-Lerner

Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?

Fokus auf L1-Erwerb (s. Gesamtgröße).


Datengrundlage

Woher stammen die Korpusdaten?

Eigene Erhebung.


Metadaten zur Lernerpopulation

Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?

Bildungsspezifische Angaben:

Sprachbiographische Angaben:
Erstsprache/ Dialekt-Standard-Gebrauch/ Domänen des Dialekt-Standard-Gebrauchs/ Einstellungen zu Dialekt bzw. Standardsprache.

Schulform:
Ausschließlich maturaführende Schulen (Gymnasien(AHS)/ Fachoberschulen(BHS)).

Klassenstufe:
Sekundarstufe, ein Jahr vor Schulabschluss


Datenerhebung

Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?

Untersuchungsdesign:

Querschnitt

Zusätzliche Messinstrumente:

Lehrerfragebogen

Zusätzliche Informationen zu der Texterhebung

Schreibthema:

Stellungnahme zu einem Zitat von Hans Magnus Enzensberger z.T. Jugend

Textsorte:

Erörterung


Datenaufbereitung

Wie wurden die Daten aufbereitet/angereichert?

Originaltext:

Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar

Glättung der Originaltexte/Fehlerannotation:

Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Mauelle Annotationen während der Transkriptionsphase: surface features of the text, such as graphical arrangement (outline and other pretext elements, title,paragraphs, emphasis, footnotes, and postscript elements)/ self-corrections (insertions, deletions)/ emoticons and symbols/ unreadable or ambiguous words/ comment, whenever it contributes to a better understanding (Abel et al. 2014: 2417f.). Linguistische Annotationen (s.u.) wurden klassifiziert und mit einer seperaten Zielhypothese versehen.


Elektronische Abfrageoberfläche

Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.


Linguistische Annotationen

Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?

Orthografie

The classification schema for orthographical errors comprises 28 distinct categories that can be assorted to seven superordinate categories (upper/lower case errors; seperate/compound spelling errors; omnission of letters; adding of letters; confusion of letters; special cases) (Abel et al. 2014: 2417f.)

Interpunktion

6 Interpunktions-Fehlerkategorien mit jeweiligen Unterkategorien

Grammtik

597 Texte (sub-sample) wurden hinsichtlich grammatischer Fehler annotiert (orientiert sich am Falko-Korpus): Correspondence/ Correspondence referent/ Inflection/ Incompleteness/ Redundancy/ Anacoluthon/ Word order/ Not categorisable gram. Error mit zusätzlichen Unterkategorien. (Abel et al. 2014:2418)

Morphologie

Automatische Annotationen: Lemmatisierung mit IMS TreeTagger (Schmid, 1994)

Syntax

Automatische Annotationen: Sentence splitting mit IMS TreeTagger (Schmid, 1994)

Morphosyntax/Wortarten

Automatische Annotationen der Wortarten (POS-tagging)


Korpusdarstellung

Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?

Filtervariablen:

Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)

Suchoptionen:

left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)

Aufbau der Abfrageoberfläche:

ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert

Query Result Darstellung:

Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (gram.-/ tran.-/ orth.-grid)/ u.a. transkribierter full text mit farblich markierten orthographischen Fehlern

Korpusabfragesprache:

AQL


Dokumentationsformen

Formate/Downloadmöglichkeiten:

Können Suchergebnisse/Korpusdaten heruntergeladen werden?
verschiedene file bundles des Korpus sind downloadbar unter https://gitlab.inf.unibz.it/commul/koko/data/bundle/diverse
Export-Möglichkeiten aus ANNIS (WekaExporter, CSVExporter, TextExporter, GridExporter, SimpleTextExporter)/Link zu Annotationen kopierbar

Korpusnutzung/Zugang:

frei verfügbar nach CLARIN ACADEMIC END-USER LICENCE (ACA-BY-NC-NORED 1.0) - KOKO.
Verfügbar über Eurac Research Clarin Centre (ERCC), On-premise GitLab installation, ready-to-search in ANNIS