Litkey
Laufzeit
In welchem Zeitraum wurden die Korpusdaten erhoben?
2010–2012
Leitung/Kooperationspartner
Unter der Leitung welcher Organisation wurde das Korpus angelegt? Welche Kooperationspartner waren beteiligt?
Ruhr-Universität Bochum; Ronja Laarmann-Quante, Katrin Ortmann, Anna Ehlert, Simon Masloch, Doreen Scholz, Eva Belke, & Stefanie Dipper
Forschungsprojekt
Im Rahmen welches Forschungsprojektes wurde das Korpus angelegt?
“Literacy as the key to social participation: Psycholinguistic perspectives on orthography instruction and literacy acquisition”
Forschungsfragen/Ziele
Für die Beantwortung welcher Fragen/mit welchem Ziel wurde das Korpus angelegt?
Our aim is to investigate relations between spelling errors of beginning writers and orthographic properties of words using manual, automated or semi-automated corpus methods.
Gesamtgröße des Korpus
1922 Texte.
Fokus L1-/L2-Lerner
Gibt es einen Fokus auf L1- oder L2-Lernende des Deutschen? Wenn ja, welchen?
Kein Fokus, aber 63% der SchülerInnen sind mehrsprachig.
Datengrundlage
Woher stammen die Korpusdaten?
Textdaten stammen aus dem Forschungsprojekt Frieg, H. (2014). Sprachförderung im Regelunterricht der Grundschule: Eine Evaluation der Generativen Textproduktion (Dissertation). Ruhr-Universität Bochum
Metadaten zur Lernerpopulation
Welche Metadaten sind zu Lernerpopulation gegeben und in welcher Form sind sie gegeben?
Demographische Angaben:
Alter:
Alter zu jedem Testzeitpunkt (z.B. 8.75)
Bildungsspezifische Angaben:
Sprachbiographische Angaben:
Geburtsland des Kindes/ Geburtsland der Eltern/ gesprochene Sprachen (mono-/bi-/multilingual)/ L1 in der Familie/ Sprache zu Hause/ Schriftsprache/ Sprachfördermaßnahmen/ Anzahl der Jahre in Kindergarten oder Vorschule/ Muttersprachenunterricht
Schulform:
Primarstufe
Klassenstufe:
2.–4. Klasse
Datenerhebung
Mit welchen Methoden und unter welchen Umständen wurden die Daten erhoben?
Untersuchungsdesign:
Längsschnitt
Zusätzliche Informationen zu der Texterhebung
Schreibthema:
unterschiedliche Bildergeschichten mit denselben Figuren Lea, Lars und einem Hund Dodo
Textsorte:
Bildergeschichte
Datenaufbereitung
Wie wurden die Daten aufbereitet/angereichert?
Originaltext:
Sind die Originaltexte der Lernenden zugänglich?
k.A., auch kein full text in ANNIS
Glättung der Originaltexte/Fehlerannotation:
Wie wurden die Originaldaten (z.B. für maschinelle Lasbarkeit) manipuliert?
Manuelle Transkription mit ausführlichen Transkriptionsrichtlinien, bei denen die Nähe zum Original als Grundsatz gilt/ Formulierung einer Zielhypothese, die ausschließlich orthographische Fehler berücksichtigt/ The original and target spellings are aligned character-wise so that users can see which characters were used incorrectly in which context/ diverse Fehlerkategorien zu verschiedenen Annotationebenen
Elektronische Abfrageoberfläche
Eine elektronische, durchsuchbare Abfrageoberfläche ist vorhanden.
Linguistische Annotationen
Welche linguistischen Annotationen wurden an den Korpusdaten vorgenommen?
Orthografie
Scheme of fine-grained spelling categories/ 13 key orthographic features (KOFs) that override phonographic spellings and encode important spelling-relatedproperties of the word (Referenz zu Eisenberg 2006)/ KOF errors
Phonologie
Phoneme, inkl. Betonungs- und Silbenmarkierung in IPA und SAMPA über den web service G2B/ PCU: phoneme-corrsponding-units and graphemes/ n:m mapping(=kein 1:1 Verhältnis von Phonem und Graphem)
Morphologie
Jedes Morphem ist getaggt (tags for inflectional (INFL) and derivational (PRF, SFX) affixes, as well as tags for stems (e.g., N, ADJ, V) and for monomorphemic word forms (e.g., adpositions, conjunctions))
Lexik
For each (case-sensitive) target token, we recorded the absolute and normalized frequency of occurrence of the corresponding type in childLex (Laarmann-Quante et al., 2019) (markiert mit chl_x im Korpus)/ zusätzlich Lemmafrequenz aus childLex/ Zipf score
Morphosyntax/Wortarten
Automatische Annotation der Wortarten nach STTS mithilfe des Standford POS Tagger
Korpusdarstellung
Falls eine digitale Abfrageoberfläche für das Korpus existiert: Wie ist diese beschaffen?
Filtervariablen:
Korpora/ Filtersuchfeld (allerdings nur das eine Korpus)
Suchoptionen:
left content (0-20)/ right content (0-20)/ show context in "tokens (default)"/ results per page (1-25)/ order (ascending/random/descending)
Aufbau der Abfrageoberfläche:
ANNIS modularer Aufbau; Corpusworkbench (CWB) durch korporaspezifische Java-Struts-Module und durch ein Java-Serverpages-(JSP)-Webinterface erweitert
Query Result Darstellung:
Anzahl der Treffer/ Dokumentenpfad/ Tokenbereich/ 3-4 Token orig./ grid (default_ns) mit zeichenweiser Annotation auf diversen Ebenen/ kein Zugang zum gesamten Text
Korpusabfragesprache:
AQL
Dokumentationsformen
Formate/Downloadmöglichkeiten:
Können Suchergebnisse/Korpusdaten heruntergeladen werden?
XML-Format (LearnerXML)/ Tabelle mit Token und deren Annotationen (csv, xlsx)/ Tabelle mit Types und deren Annotationen (csv, xlsx)/ durchsuchbar über ANNIS
Korpusnutzung/Zugang:
The Litkey Corpus (ISLRN 051-051-923-439-0) is licensed under the Creative Commons Attribution-ShareAlike 4.0 license (CC BY-SA 4.0). Diverse Formate frei verfügbar