Laufzeit

In welchem Zeitraum wurden die Korpusdaten erhoben?

2010–2015

Leitung/Kooperationspartner

Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?

Institut für Fachkommunikation und Mehrsprachigkeit der Europäischen Akademie Bozen in Zusammenarbeit mit der Bildungswissenschaftlichen Fakultät der Freien Universität Bozen und dem Institut für Germanistik der Universität Innsbruck

Forschungsprojekt

Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?

„Bildungssprache im Vergleich – KoKo: korpusunterstützte Analyse der Sprachkompetenzen bei Lernenden im deutschen Sprachraum (unter besonderer Berücksichtigung des Deutschen in Südtirol)“

Forschungsfragen/Ziele

Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?

Erfassung schriftlicher Schüleräußerungen als Analysegrundlage für Aussagen über die Sprachkompetenzen bei Lernenden mit Deutsch als Erstsprache in Süd- und Nordtirol sowie im binnendeutschen Raum hinsichtlich der Verteilung der Sprachkompetenzen, sowie die Erstellung eines digitalen Lernerkorpus.

Gesamtgröße des Korpus

Gesamtkorpus: 1503 Texte. 1319 davon von SchülerInnen mit Deutsch als L1.

Subkorpora

Subkorpora nach Region (Nordtirol/Südtirol/Thüringen) und L1 (Deutsch/andere)

Fokus L1-/L2-Lerner

Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?

Fokus auf L1-Erwerb (s. Gesamtgröße).

Datengrundlage

Woher stammen die Korpusdaten?

Eigene Erhebung.

Metadaten zur Lernerpopulation

Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?

Bildungsspezifische Angaben:

Sprachbiographische Angaben:
Erstsprache/ Dialekt-Standard-Gebrauch/ Domänen des Dialekt-Standard-Gebrauchs/ Einstellungen zu Dialekt bzw. Standardsprache.

Schulform:
Ausschließlich maturaführende Schulen (Gymnasien(AHS)/ Fachoberschulen(BHS)).

Klassenstufe:
Sekundarstufe, ein Jahr vor Schulabschluss

Datenerhebung

Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?

Untersuchungsdesign:

Querschnitt

Zusätzliche Messinstrumente:

Lehrerfragebogen

Zusätzliche Informationen zu der Texterhebung

Schreibthema:

Stellungnahme zu einem Zitat von Hans Magnus Enzensberger z.T. Jugend

Textsorte:

Erörterung

Datenaufbereitung

Wie wurden die Daten aufbereitet/angereichert?

Originaltext:

Sind die Originaltexte der Lernenden zugänglich?
Transkribierter Originaltext (full text) in ANNIS abrufbar

Glättung der Originaltexte/Fehlerannotation:

Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Mauelle Annotationen während der Transkriptionsphase: surface features of the text, such as graphical arrangement (outline and other pretext elements, title,paragraphs, emphasis, footnotes, and postscript elements)/ self-corrections (insertions, deletions)/ emoticons and symbols/ unreadable or ambiguous words/ comment, whenever it contributes to a better understanding (Abel et al. 2014: 2417f.). Linguistische Annotationen (s.u.) wurden klassifiziert und mit einer seperaten Zielhypothese versehen.

Elektronische Abfrageoberfläche

Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.

Linguistische Annotationen

Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?

Orthografie

The classification schema for orthographical errors comprises 28 distinct categories that can be assorted to seven superordinate categories (upper/lower case errors; seperate/compound spelling errors; omnission of letters; adding of letters; confusion of letters; special cases) (Abel et al. 2014: 2417f.)

Interpunktion

6 Interpunktions-Fehlerkategorien mit jeweiligen Unterkategorien

Grammtik

597 Texte (sub-sample) wurden hinsichtlich grammatischer Fehler annotiert (orientiert sich am Falko-Korpus): Correspondence/ Correspondence referent/ Inflection/ Incompleteness/ Redundancy/ Anacoluthon/ Word order/ Not categorisable gram. Error mit zusätzlichen Unterkategorien. (Abel et al. 2014:2418)

Morphologie

Automatische Annotationen: Lemmatisierung mit IMS TreeTagger (Schmid, 1994)

Syntax

Automatische Annotationen: Sentence splitting mit IMS TreeTagger (Schmid, 1994)

Morphosyntax/Wortarten

Automatische Annotationen der Wortarten (POS-tagging)

Korpusdarstellung

Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?

Filtervariablen:

Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)

Suchoptionen:

left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)

Aufbau der Abfrageoberfläche:

ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert

Query Result Darstellung:

Anzahl der Treffer in Anzahl der Dokumente/ Tokenbereich/ verschiedene Annotationsebenen ein- und ausklappbar (gram.-/ tran.-/ orth.-grid)/ u.a. transkribierter full text mit farblich markierten orthographischen Fehlern

Korpusabfragesprache:

AQL

Dokumentationsformen

Formate/Downloadmöglichkeiten:

Können Suchergebnisse/Korpusdaten heruntergeladen werden?
verschiedene file bundles des Korpus sind downloadbar unter https://gitlab.inf.unibz.it/commul/koko/data/bundle/diverse
Export-Möglichkeiten aus ANNIS (WekaExporter, CSVExporter, TextExporter, GridExporter, SimpleTextExporter)/Link zu Annotationen kopierbar

Korpusnutzung/Zugang:

frei verfügbar nach CLARIN ACADEMIC END-USER LICENCE (ACA-BY-NC-NORED 1.0) - KOKO.
Verfügbar über Eurac Research Clarin Centre (ERCC), On-premise GitLab installation, ready-to-search in ANNIS

Institut für deutsche Sprache und Literatur

Universität Hildesheim
Institut für deutsche Sprache und Literatur

Postanschrift:
Universitätsplatz 1
31141 Hildesheim 

Besucheranschrift:
Bühler-Campus
Lübecker Straße 3 (Zugang über Lüneburger Straße)
31141 Hildesheim

Geschäftszimmer:

Sylvia Schlenker (Raum BC.LN.2.23)
Tel.: +49 (0) 51 21 - 883 30150
Fax: +49 (0) 51 21 - 883 30151
sylvia.schlenker(at)uni-hildesheim.de

Gesa Reitze (Raum BC.LN.2.23)
Tel.: +49 (0) 51 21 - 883 30100
Fax: +49 (0) 51 21 - 883 30101
reitze(at)uni-hildesheim.de

Institutsgeschäftsführung
Dr. Ulrike Behrens
Tel.: +49 (0) 51 21 - 883 30140
Raum BC.LN.2.15
idsl(at)uni-hildesheim.de

Geschäftsführende Direktorin
Prof. Dr. Elke Montanari
Tel.: +49 (0) 51 21 - 883 30108
Raum BC.LN.2.22
il-idsl(at)uni-hildesheim.de