Litkey



Laufzeit

In welchem Zeitraum wurden die Korpusdaten erhoben?

2010–2012


Leitung/Kooperationspartner

Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?

Ruhr-Universität Bochum; Ronja Laarmann-Quante, Katrin Ortmann, Anna Ehlert, Simon Masloch, Doreen Scholz, Eva Belke, & Stefanie Dipper


Forschungsprojekt

Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?

“Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition”


Forschungsfragen/Ziele

Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?

Our aim is to investigate relations between spelling errors of beginning writers and orthographic properties of words using manual, automated or semi-automated corpus methods.


Gesamtgröße des Korpus

1922 Texte.


Fokus L1-/L2-Lerner

Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?

Kein Fokus, aber 63% der SchülerInnen sind mehrsprachig.


Datengrundlage

Woher stammen die Korpusdaten?

Textdaten stammen aus dem Forschungsprojekt Frieg, H. (2014). Sprachförderung im Regelunterricht der Grundschule: Eine Evaluation der Generativen Textproduktion (Dissertation). Ruhr-Universität Bochum


Metadaten zur Lernerpopulation

Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?

Demographische Angaben:

Alter:
Alter zu jedem Testzeitpunkt (z.B. 8.75)

Bildungsspezifische Angaben:

Sprachbiographische Angaben:
Geburtsland des Kindes/ Geburtsland der Eltern/ gesprochene Sprachen (mono-/bi-/multilingual)/ L1 in der Familie/ Sprache zu Hause/ Schriftsprache/ Sprachfördermaßnahmen/ Anzahl der Jahre in Kindergarten oder Vorschule/ Muttersprachenunterricht

Schulform:
Primarstufe

Klassenstufe:
2.–4. Klasse


Datenerhebung

Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?

Untersuchungsdesign:

Längsschnitt

Zusätzliche Informationen zu der Texterhebung

Schreibthema:

unterschiedliche Bildergeschichten mit denselben Figuren Lea, Lars und einem Hund Dodo

Textsorte:

Bildergeschichte


Datenaufbereitung

Wie wurden die Daten aufbereitet/angereichert?

Originaltext:

Sind die Originaltexte der Lernenden zugänglich?
k.A., auch kein full text in ANNIS

Glättung der Originaltexte/Fehlerannotation:

Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Manuelle Transkription mit ausführlichen Transkriptionsrichtlinien, bei denen die Nähe zum Original als Grundsatz gilt/ Formulierung einer Zielhypothese, die ausschließlich orthographische Fehler berücksichtigt/ The original and target spellings are aligned character-wise so that users can see which characters were used incorrectly in which context/ diverse Fehlerkategorien zu verschiedenen Annotationebenen


Elektronische Abfrageoberfläche

Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.


Linguistische Annotationen

Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?

Orthografie

Scheme of fine-grained spelling categories/ 13 key orthographic features (KOFs) that override phonographic spellings and encode important spelling-relatedproperties of the word (Referenz zu Eisenberg 2006)/ KOF errors

Phonologie

Phoneme, inkl. Betonungs- und Silbenmarkierung in IPA und SAMPA über den web service G2B/ PCU: phoneme-corrsponding-units and graphemes/ n:m mapping(=kein 1:1 Verhältnis von Phonem und Graphem)

Morphologie

Jedes Morphem ist getaggt (tags for inflectional (INFL) and derivational (PRF, SFX) affixes, as well as tags for stems (e.g., N, ADJ, V) and for monomorphemic word forms (e.g., adpositions, conjunctions))

Lexik

For each (case-sensitive) target token, we recorded the absolute and normalized frequency of occurrence of the corresponding type in childLex (Laarmann-Quante et al., 2019) (markiert mit chl_x im Korpus)/ zusätzlich Lemmafrequenz aus childLex/ Zipf score

Morphosyntax/Wortarten

Automatische Annotation der Wortarten nach STTS mithilfe des Standford POS Tagger


Korpusdarstellung

Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?

Filtervariablen:

Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)

Suchoptionen:

left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)

Aufbau der Abfrageoberfläche:

ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert

Query Result Darstellung:

Anzahl der Treffer/ Dokumentenpfad/ Tokenbereich/ 3-4 Token orig./ grid (default_ns) mit zeichenweiser Annotation auf diversen Ebenen/ kein Zugang zum gesamten Text

Korpusabfragesprache:

AQL


Dokumentationsformen

Formate/Downloadmöglichkeiten:

Können Suchergebnisse/Korpusdaten heruntergeladen werden?
XML-Format (LearnerXML)/ Tabelle mit Token und deren Annotationen (csv, xlsx)/ Tabelle mit Types und deren Annotationen (csv, xlsx)/ durchsuchbar über ANNIS

Korpusnutzung/Zugang:

The Litkey Corpus (ISLRN 051-051-923-439-0) is licensed under the Creative Commons Attribution-ShareAlike 4.0 license (CC BY-SA 4.0). Diverse Formate frei verfügbar