Laufzeit

In welchem Zeitraum wurden die Korpusdaten erhoben?

2010–2012

Leitung/Kooperationspartner

Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?

Ruhr-Universität Bochum; Ronja Laarmann-Quante, Katrin Ortmann, Anna Ehlert, Simon Masloch, Doreen Scholz, Eva Belke, & Stefanie Dipper

Forschungsprojekt

Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?

“Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition”

Forschungsfragen/Ziele

Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?

Our aim is to investigate relations between spelling errors of beginning writers and orthographic properties of words using manual, automated or semi-automated corpus methods.

Gesamtgröße des Korpus

1922 Texte.

Fokus L1-/L2-Lerner

Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?

Kein Fokus, aber 63% der SchülerInnen sind mehrsprachig.

Datengrundlage

Woher stammen die Korpusdaten?

Textdaten stammen aus dem Forschungsprojekt Frieg, H. (2014). Sprachförderung im Regelunterricht der Grundschule: Eine Evaluation der Generativen Textproduktion (Dissertation). Ruhr-Universität Bochum

Metadaten zur Lernerpopulation

Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?

Demographische Angaben:

Alter:
Alter zu jedem Testzeitpunkt (z.B. 8.75)

Bildungsspezifische Angaben:

Sprachbiographische Angaben:
Geburtsland des Kindes/ Geburtsland der Eltern/ gesprochene Sprachen (mono-/bi-/multilingual)/ L1 in der Familie/ Sprache zu Hause/ Schriftsprache/ Sprachfördermaßnahmen/ Anzahl der Jahre in Kindergarten oder Vorschule/ Muttersprachenunterricht

Schulform:
Primarstufe

Klassenstufe:
2.–4. Klasse

Datenerhebung

Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?

Untersuchungsdesign:

Längsschnitt

Zusätzliche Informationen zu der Texterhebung

Schreibthema:

unterschiedliche Bildergeschichten mit denselben Figuren Lea, Lars und einem Hund Dodo

Textsorte:

Bildergeschichte

Datenaufbereitung

Wie wurden die Daten aufbereitet/angereichert?

Originaltext:

Sind die Originaltexte der Lernenden zugänglich?
k.A., auch kein full text in ANNIS

Glättung der Originaltexte/Fehlerannotation:

Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Manuelle Transkription mit ausführlichen Transkriptionsrichtlinien, bei denen die Nähe zum Original als Grundsatz gilt/ Formulierung einer Zielhypothese, die ausschließlich orthographische Fehler berücksichtigt/ The original and target spellings are aligned character-wise so that users can see which characters were used incorrectly in which context/ diverse Fehlerkategorien zu verschiedenen Annotationebenen

Elektronische Abfrageoberfläche

Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.

Linguistische Annotationen

Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?

Orthografie

Scheme of fine-grained spelling categories/ 13 key orthographic features (KOFs) that override phonographic spellings and encode important spelling-relatedproperties of the word (Referenz zu Eisenberg 2006)/ KOF errors

Phonologie

Phoneme, inkl. Betonungs- und Silbenmarkierung in IPA und SAMPA über den web service G2B/ PCU: phoneme-corrsponding-units and graphemes/ n:m mapping(=kein 1:1 Verhältnis von Phonem und Graphem)

Morphologie

Jedes Morphem ist getaggt (tags for inflectional (INFL) and derivational (PRF, SFX) affixes, as well as tags for stems (e.g., N, ADJ, V) and for monomorphemic word forms (e.g., adpositions, conjunctions))

Lexik

For each (case-sensitive) target token, we recorded the absolute and normalized frequency of occurrence of the corresponding type in childLex (Laarmann-Quante et al., 2019) (markiert mit chl_x im Korpus)/ zusätzlich Lemmafrequenz aus childLex/ Zipf score

Morphosyntax/Wortarten

Automatische Annotation der Wortarten nach STTS mithilfe des Standford POS Tagger

Korpusdarstellung

Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?

Filtervariablen:

Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)

Suchoptionen:

left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)

Aufbau der Abfrageoberfläche:

ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert

Query Result Darstellung:

Anzahl der Treffer/ Dokumentenpfad/ Tokenbereich/ 3-4 Token orig./ grid (default_ns) mit zeichenweiser Annotation auf diversen Ebenen/ kein Zugang zum gesamten Text

Korpusabfragesprache:

AQL

Dokumentationsformen

Formate/Downloadmöglichkeiten:

Können Suchergebnisse/Korpusdaten heruntergeladen werden?
XML-Format (LearnerXML)/ Tabelle mit Token und deren Annotationen (csv, xlsx)/ Tabelle mit Types und deren Annotationen (csv, xlsx)/ durchsuchbar über ANNIS

Korpusnutzung/Zugang:

The Litkey Corpus (ISLRN 051-051-923-439-0) is licensed under the Creative Commons Attribution-ShareAlike 4.0 license (CC BY-SA 4.0). Diverse Formate frei verfügbar

Institut für deutsche Sprache und Literatur

Universität Hildesheim
Institut für deutsche Sprache und Literatur

Postanschrift:
Universitätsplatz 1
31141 Hildesheim 

Besucheranschrift:
Bühler-Campus
Lübecker Straße 3 (Zugang über Lüneburger Straße)
31141 Hildesheim

Geschäftszimmer:

Sylvia Schlenker (Raum BC.LN.2.23)
Tel.: +49 (0) 51 21 - 883 30150
Fax: +49 (0) 51 21 - 883 30151
sylvia.schlenker(at)uni-hildesheim.de

Gesa Reitze (Raum BC.LN.2.23)
Tel.: +49 (0) 51 21 - 883 30100
Fax: +49 (0) 51 21 - 883 30101
reitze(at)uni-hildesheim.de

Institutsgeschäftsführung
Dr. Ulrike Behrens
Tel.: +49 (0) 51 21 - 883 30140
Raum BC.LN.2.15
idsl(at)uni-hildesheim.de

Geschäftsführende Direktorin
Prof. Dr. Elke Montanari
Tel.: +49 (0) 51 21 - 883 30108
Raum BC.LN.2.22
il-idsl(at)uni-hildesheim.de