Termin: 27. – 28.2.2025
Zeit: je 10:00 Uhr (s.t.) bis 14:30 Uhr
Ort: digital
Anmeldung: Link
Der Workshop wird digital stattfinden. Eine Teilnahme auch tageweise möglich.
Tag 1 (27.2.): Von Bag of Words zu Word Embeddings; Transformer und Finetuning
Tag 2 (28.2.): LLMs, lokale Implementationen mit Ollama und die Verwendung von Agents
Der Workshop gibt eine Einführung in die Nutzung der neuesten Entwicklung in der maschinellen Sprachverarbeitung, sogenannter Large Language Models (LLMs). Der erste Tag des Workshops führt in die zugrundeliegenden Technologien ein. Zunächst werden wir grundlegende Konzepte in der Arbeit mit Word Embeddings, also der statistischen Repräsentation von Sprache in Vektorräumen, kennenlernen. Daraufhin werden wir lernen, wie wir das darauf aufbauende BERT-Transformer-Modell für die Textklassifikation einsetzen und die Grundprinzipien des Model Finetuning, also der Verbesserung des Modells mittels annotierten Trainingsdaten, kennenlernen. Am zweiten Tag des Workshops werden wir uns der Nutzung generativer Large Language Models wie ChatGPT oder Llama widmen. Wir werden lernen, wie wir LLMs zur Klassifikation von Texten nutzen können, welche Probleme und Stolperfallen bestehen. Dabei werden wir auch sehen, wie unterschiedliche Modelle mit dem Ollama Framework lokal aufgesetzt und unabhängig von kommerziellen Anbietern für die eigene Forschung genutzt werden können. Schlussendlich werden wir uns mit der neuesten Entwicklung im Bereich der LLMs, sogenannter Agents, auseinandersetzen. Agents ermöglichen es, LLMs für die Bewältigung komplexer Aufgaben einzusetzen, indem Teilaufgaben definiert und an unterschiedliche Modelle oder Verarbeitungstools weitergeleitet werden. So wird es beispielsweise möglich, Text und Bild eines Social Media Posts an unterschiedliche Modelle weiterzuleiten oder dem Modell für die Generation seiner Antwort zusätzliche Dokumente zuzuspielen (sogenannte Retrieval Augmented Generation, RAG).
Neben kurzen Inputvorträgen besteht der Workshop aus Übungen, welche die Nutzung der Methoden in Python anleiten. Grundkenntnisse in Python oder einer verwandten Programmiersprache sind für die Teilnahme an den Übungen erforderlich. Der Workshop richtet sich an Forschende und Studierende, die bereits Vorkenntnisse im Bereich des Natural Language Processing (NLP) besitzen und ihre Kenntnisse im Bereich der Large Language Models vertiefen möchten.
Leiter des Workshops:
Tim König ist wissenschaftlicher Mitarbeiter an der Professur für Politik und Digitalisierung des Instituts für Sozialwissenschaften an der Universität Hildesheim. In seiner Promotion hat er sich mit politischer Kommunikation in komplexen Medienumgebungen sowie der Epistemologie digitaler Forschungsmethoden beschäftigt. Während seiner Zeit im EPINetz-Projekt hat er unter anderem Textkonkurrenznetzwerke zur Klassifikation großer Mengen an Textdaten eingesetzt. Neben komplexen Regressionsmodellen, Machine Learning und Netzwerkanalysen beschäftigt er sich momentan, insbesondere mit dem Einsatz von Large Language Models in den Sozialwissenschaften.