SOCIAL WEB MINING
Methoden für die Erschließung und Interpretation von Solidaritätsdiskursen im Social Web
Um das Verstehen dynamischer Solidaritätsdiskurse im Web und deren Wechselbeziehungen mit gesellschaftlichen Ereignissen zu ermöglichen, wird dieses Arbeitspaket Methoden des maschinellen Lernens und der Informationsextraktion für die Analyse von Online Diskurs, speziell auf Twitter, entwickeln. Aufbauend auf existierenden Methoden (Fafalios et al., 2018) und Korpora, wie TweetsKB (https://data.gesis.org/tweetskb/), werden Methoden für Natural Language Processing (NLP) und Informationsextraktion angewandt und angepasst, um maßgeschneiderte Methoden für das Verständnis von Schlüsselkonzepten des Anliegens ("Vertrauen", "Solidarität") und des damit verbundenen Diskurses bereitzustellen. Dies erfordert nicht nur die automatische Interpretation unstrukturierter Inhalte, z.B. mithilfe von Named Entity Disambiguation (NED) oder Sentiment Analyse, sondern auch die Ableitung demographischer Merkmale der Nutzer und die Gewährleistung der Repräsentativität der extrahierten Stichproben und Informationen.
Herausforderungen in diesem Zusammenhang sind der Umfang und die Heterogenität der Daten: TweetsKB basiert auf aktuell ca. 11 Mrd. Tweets, wobei sich Twitter-Diskurs durch informelle Sprache auszeichnet, deren Interpretation oft die Berücksichtigung des Kontexts (Zeit, Ort, verlinkte Inhalte) notwendig macht. Das Projekt wird auf existierende Arbeiten aufbauen und an die spezifischen Probleme und Forschungsherausforderungen dieses Projekts anpassen, z.B. um Tweets deutscher Nutzer_innen zu georeferenzieren, um solidaritätsbezogene Diskurse und Begriffe unter Berücksichtigung der spezifischen Sprache und des Vokabulars zu verstehen, die auf sozialen Online-Plattformen verwendet werden und um die temporäre Analyse von Diskursen und Meinungen im Zeitverlauf zu ermöglichen.
Fafalios P., Iosifidis V., Ntoutsi E., Dietze S. (2018) 'Tweetskb: A public and large-scale rdf corpus of annotated tweets', European Semantic Web Conference, 177–190.
GESIS – Leibniz-Institut für Sozialwissenschaften / Prof. Dr. Stefan Dietze
