Von Büchern zu Bytes
Die digitale Transformation in der Geschichtswissenschaft
Der professionelle Umgang mit wissenschaftlichen Daten ist ein drängendes und hochaktuelles Thema über die Grenzen der Fachdisziplinen hinweg. NFDI4Memory möchte die Community bei der Bewältigung des “Digital Turns” unterstützen und Forschenden in den historisch arbeitenden Wissenschaften helfen, ihre Fachkompetenzen zu erweitern und von den Möglichkeiten digital gestützter Methoden zu profitieren.
Die Veranstaltungsreihe „From Books to Bytes“ stellt regelmäßig aktuelle Themen und relevante Anwendungsfelder in Vorträgen von und mit Expert:innen, Forschenden und Lehrenden vor. Dabei erhalten die Teilnehmenden nach kurzen thematischen Einführungen die Möglichkeit, sich in Hands-on-Sessions selbstständig mit den vorgestellten Inhalten auseinanderzusetzen und die Ergebnisse innerhalb der Fachcommunity ausführlich zu diskutieren.
Eine Anmeldung ist nicht notwendig. Einfach Einwahldaten eingeben und los geht's!
Teilnahmelink: https://uni-trier.zoom-x.de/j/69148560192?pwd=ZUVjclY2V1JibXhFYVk1VGgrdE9qdz09
Meeting-ID: 691 4856 0192
Kenncode: M0gcpwTh
Von Büchern zu Bytes - Staffel 3
Referenten: Prof. Torsten Hiltmann und Noah Baumann (Humboldt-Universität zu Berlin)
Large Language Models (LLMs) revolutionieren auch die geschichtswissenschaftliche Arbeit, bringen aber für Historiker:innen erhebliche Probleme mit sich: Halluzinationen, fehlende Quellenangaben und unerkennbare Biases machen sie für quellenkritische Arbeit oft ungeeignet. Retrieval-Augmented Generation (RAG) bietet eine Lösung, indem LLMs mit spezifischen, überprüfbaren Quellen verknüpft werden.
Wir stellen ein methodisch-informiertes RAG-System vor, das für geschichtswissenschaftliche Anforderungen entwickelt wurde. Am Beispiel des digitalisierten SPIEGEL-Archivs (für die Jahre 1949-1979) demonstrieren wir, wie sich komplexe historische Fragen systematisch bearbeiten lassen. Das System ermöglicht dabei die Erschließung von Quellen, die durch regelbasierte Datenbanksuchen übersehen würden, und bietet eine Skalierbarkeit der Analyse, die mit traditionellen Methoden nicht erreichbar wäre.
Im Hands-On-Teil erarbeiten Teilnehmende in Gruppen konkrete Forschungsfragen. Dabei entwickeln sie ein Verständnis für die vielfältigen Entscheidungsprozesse beim Einsatz von RAG-Systemen, von der Quellenauswahl über Evaluationskriterien bis zur Interpretation der Ergebnisse, und lernen, welche Auswirkungen diese Entscheidungen auf die historische Analyse haben. Die Session vermittelt sowohl die Möglichkeiten als auch die Grenzen von RAG-Systemen und zeigt, wie KI-Tools als hermeneutische Instrumente die Geschichtsforschung erweitern können, ohne deren kritische Grundprinzipien zu kompromittieren.
Keine technischen Vorkenntnisse erforderlich.
Referentinnen: Dr. Cindarella Petz und Dr. Sarah Oberbichler (Leibniz-Institute of European History (IEG))
Im Zentrum dieses digitalen Seminars steht der (durchaus komplexe) Prozess der Anwendung von KI-Modellen in der geisteswissenschaftlichen Forschung, welches wir mit Beispielen aus eigenen Forschungsprojekten illustrieren werden. Dieser reicht von der Einrichtung geeigneter Rechnerumgebungen für lokale Modelle über die Auswahl geeigneter Evaluierungsmethoden bis hin zum Fine-Tuning zur Optimierung für spezielle Anwendungsdomänen. Diese technischen Aspekte werden dabei mit ethischen, rechtlichen und Nachhaltigkeits bezogenen Fragestellungen verknüpft. Mithilfe eines eigens entwickelten epistemologischen Frameworks zeigen wir, wie sich diese Perspektiven sinnvoll miteinander verbinden lassen. Zudem werden wir Prompt Strategien diskutieren, Evaluierungsmethoden besprechen und den Nutzen des Fine-Tuning beleuchten.
Referent*innen: Aida Horaniet Ibanez and Daniel Richter (Luxembourg Centre for Contemporary and Digital History (C²DH))
During this training session, we will guide participants through some of the possibilities to represent data across the epistemological axis, ranging from quantitative to qualitative, critical/rhetorical and creative practices. Not only visually, but also exploring other modalities, such as data physicalisation. We will discuss which methods to choose according to different objectives, the tools available from analogue to digital, and potential ways to evaluate the results. The main objective of this training is to expose participants to a wide range of options through different examples, challenging the definition of data literacy, and therefore that of data visualisation, particularly in the context of historical research and dissemination.
Referentin: Sarah Kiener (Zentralbibliothek Zürich)
Bibliotheken und Archive verfügen heute über riesige Bestände digitalisierter Dokumente. Doch oft bleiben die darin enthaltenen Informationen in Bilddateien “eingeschlossen” und sind nur schwer zugänglich. Gründe dafür sind unter anderem alte Schriften, mangelhafte Druckqualität und historische Schreibweisen, die die automatische Texterkennung (OCR) erschweren. Mit ihrer visuellen Komponente und ihrer "Intelligenz" haben multimodale große Sprachmodelle (LLMs) das Potenzial diese Lücke zu füllen. Sie können nicht nur Texte aus Scans extrahieren und präzise transkribieren, sondern auch Inhalte interpretieren, klassifizieren und in strukturierte Formate wie JSON oder CSV überführen.
Am Beispiel der Zürcher Nachtzedel – Gästelisten der Zürcher Hotels aus den Jahren 1780 bis 1792 – wird aufgezeigt, wie sich LLMs für die Aufbereitung historischer Quellen in maschinenlesbare Datensätze einsetzen lassen.
Der Workshop führt in die Grundlagen des Promptings ein und vermittelt bewährte Strategien, wie LLMs effektiv zur Gewinnung strukturierter Daten aus Digitalisaten genutzt werden können. Die Teilnehmenden entwickeln eigene Prompts zur Extraktion von Informationen aus den Nachtzedeln und erhalten hilfreiche Tipps für eine erfolgreiche Promptgestaltung.
Referent*innen: Robert Zwick und Golnaz Sarkar Farshi (Hochschule Mainz und Philipps-Universität Marburg)
Python ist heute eine zentrale Programmiersprache für die digitale Forschung und findet in den Geisteswissenschaften vielfältige Anwendung, etwa bei der Analyse von Textkorpora oder bei der Visualisierung von Forschungsdaten. Der Workshop “Who is afraid of Python?” bietet einen niederschwelligen Einstieg in die Sprache und richtet sich besonders an Teilnehmende ohne Vorkenntnisse. Um die Logik des Programmierens anschaulich zu vermitteln, kommt die Python Bibliothek "Turtle" zum Einsatz, mit der grafische Formen erzeugt werden können. Diese dient nicht als Forschungswerkzeug, sondern als methodisches Hilfsmittel, um grundlegende Konzepte unmittelbar erfahrbar zu machen, da Veränderungen im Code direkten und nachvollziehbaren Einfluss haben. Anhand kleiner kreativer Programmieraufgaben lernen die Teilnehmenden die ersten Schritte in Python kennen und erhalten eine Basis, auf der sich eigene Forschungsvorhaben mit digitalen Methoden entwickeln lassen.
Referent: Dr. Oliver Vettermann (FIZ Karlsruhe - Leibniz-Institut für Informationsinfrastruktur)
Der Umgang mit Forschungsdaten basiert nicht nur auf Datenstandards und wissenschaftlichen Methoden. Forschungsdaten setzen auch voraus, dass die daran hängenden Rechte Forschenden die Möglichkeit geben, mit den Daten zu arbeiten. Das Recht ist dabei nicht immer sichtbar, und es braucht ein geübtes Auge, um die teils komplexen Verhältnisse zu erkennen. Die dafür nötigen Reflexe trainiert dieser Beitrag: Anhand von zwei Beispielen werden unterschiedliche Konstellationen aufgezeigt und grundlegende rechtliche Muster erklärt. Dazu passend werden Lösungsansätze aufgezeigt, die Forschende auch für sich adaptieren können. Die Einheit aus Forschung und Recht erscheint dann hoffentlich “not that deep”.
Disclaimer: Der Vortrag/Workshop ersetzt kein vollständiges juristisches Studium oder jede Form professioneller juristischer Unterstützung. Durch den etwa 60-minütigen Beitrag kann lediglich die Grundlage für eine verständlichere Kommunikation zwischen Jurist*innen und Forschenden geschaffen und/oder gefestigt werden.
Referent: Felix Köther (Herder-Institut für historische Ostmitteleuropaforschung, Institut der Leibniz-Gemeinschaft)
Geografika und insbesondere historische Ortsdaten sind eine unverzichtbare Ressource nicht nur für die digitale historische Wissenschaft und Forschung. Nahezu jede historische Tätigkeit steht vor der Herausforderung der räumlichen und zeitlichen Einordnung ihrer Arbeitsgegenstände. Fehlende Standards, verstreute, oft noch analoge Ressourcen, die geringe historische Tiefe vieler geografischer Datenbanken (Gazetteers) sowie das stark divergierende Verständnis davon, was überhaupt ein Ort ist und sein kann, machen die Arbeit mit Ortsdaten besonders herausfordernd. In vielen Projekten fehlen zudem Kapazitäten, eine eigene Datenverwaltung für Ortsdaten aufzubauen, so dass sie höchstens beiläufig und eher rudimentär erschlossen und verknüpft werden, was Nachnutzung und Matching deutlich erschwert. Doch gerade die zunehmende Vernetzung von Forschungsdaten im Bereich der Digital Humanities macht es unabdingbar, historische Ortsdaten einer neuen, zeitgemäßen Auseinandersetzung hinsichtlich ihrer Erfassung und Kuration zu unterwerfen. Denn sie stellen eine kaum genutzte, oft vernachlässigte und zugleich “niedrigschwellige” Datenschnittstelle dar, deren aktuelle Uneinheitlichkeit jedoch inzwischen zu einem handfesten Problem für viele Forschungsprojekte und historische Datenbanken geworden ist.
Die 2024 gegründete “AG Historische Ortsdaten” hat es sich zum Ziel gemacht, hier entscheidende Unterstützungsangebote zu schaffen, und neben Hilfestellungen zur Recherche, Verwaltung und Handhabung von historischen Ortsdaten einen Minimaldatensatz erarbeitet, der das kritische Maß an Datenqualität für die Verwaltung historischer Ortsdaten mehrstufig und mit zahlreichen Empfehlungen definiert (https://ortsdaten.hypotheses.org/). Die “Von Büchern zu Bytes”-Session wird einerseits die Arbeit der AG und ihre bereits verfügbaren Angebote vorstellen. In einem Hands-On-Teil sollen die Teilnehmer:innen der Veranstaltung zudem selbst die Gelegenheit erhalten, einzelne Teile der Minimaldatensatzempfehlung zu testen und in den problematischen Umgang mit Ortsdaten einzutauchen, um abschließend Wünsche und Feedback an die AG weiterzugeben.
Weitere Informationen zu dieser Session folgen in Kürze.
Weitere Informationen zu dieser Session folgen in Kürze.

Session verpasst? Kein Problem! Alle vergangenen Sitzungen jetzt auf YouTube anschauen.