Kein Aprilscherz: Am Dienstag den 01.04. findet die letzte ‚Lunchbreak @ 4Memory Incubator Funds‘ statt.
Es werden sich die letzten beiden Projekte der insgesamt fünf dieses Jahr geförderten 4Memory Incubator Funds vorstellen:
"Transformation von Wissen aus domänenspezifischen Forschungs- datensammlungen in ontologiebasierte, frei verfügbare, normierte Vokabulare (Akronym: DomVoc)",
Bärbel Kröger & Christian Popp, Niedersächsische Akademie der Wissenschaften zu Göttingen
&
"VAMOD - Vormoderne Ambiguitaten modellieren. Anwendungsmöglich- keiten aus dem östlichen Europa",
Prof. Dr. Julia Herzberg, Leibniz- Institut für Geschichte und Kultur des östlichen Europa (GWZO)
Einen kleinen Vorgeschmack auf die Projekte bieten die kurzen Fragebögen:
Die Veranstaltung findet am Di, 01.04.2025 von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Nach der Lunchbreak ist vor der Lunchbreak, nächste Woche Dienstag, 25.03. geht es weiter mit den ‚Lunchbreaks @ 4Memory Incubator Funds‘.
In der Session stellen sich zwei weitere interessante Projekte vor:
"Embodied Interpretathon - Crowdbasierte Interpretation von mittelalterlichen Bewegungsbeschreibungen",
Dr. Eric Burkart, Germanisches Nationalmuseum Nürnberg
&
"Aufbau und Bereitstellung eines Benchmark-Datensatzes von historischen Tabellen (1750-1990)",
Prof. Dr. Werner Scheltjens, Professur für Digitale Geschichtswissenschaften, Otto-Friedrich-Universität Bamberg
Einen kleinen Vorgeschmack auf die Projekte bieten die kurzen Fragebögen:
Die Veranstaltung findet am Di, 25.03.2025 von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Die nächste 'Lunchbreak @ 4Memory Incubator Funds' findet am Di, 01.04.2025 (kein Aprilscherz!)statt, wenn die Projekte 'Transformation von Wissen aus domänenspezifischen Forschungs- datensammlungen in ontologiebasierte, frei verfügbare, normierte Vokabulare (Akronym: DomVoc)' und 'VAMOD - Vormoderne Ambiguitaten modellieren. Anwendungsmöglich- keiten aus dem östlichen Europa' sich vorstellen.
Nächste Woche starten wieder die ‚Lunchbreak @ 4Memory Incubator Funds‘.
In drei online Lunchbreaks stellen sich die fünf interessanten und vielversprechenden Projekte der in 2025 geförderten '4Memory Incubator Funds’ vor.
Den Auftakt macht am 18.03.2025 das Projekt "4Memory@School - Lehr-Lern-Labor: Digital History Data" von Prof. Dr. Sander Münster, FSU Jena, Juniorprofessur für Digital Humanities.
Zudem wird es im Vorfeld der Projektvorstellung ein kurzes allgemeines FAQ zu den Incubator Funds geben.
Einen kleinen Vorgeschmack auf das Projekt bietet der kurze Fragebogen:
Die Veranstaltung findet am Di, 18.03. von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Weite Informationen zu dem Projekt '4Memory@School - Lehr-Lern-Labor: Digital History Data' finden Sie hier.
Die nächste 'Lunchbreak @ 4Memory Incubator Funds' findet am Di, 25.03. statt, wenn die Projekte 'Emboided Interpretathon - Crowdbasierte Interpretation von mittelalterlichen Bewegungsbeschreibungen' und 'Aufbau und Bereitstellung eines Benchmark-Datensatzes von historischen Tabellen (1750-1990)' sich vorstellen.
Im Rahmen der „Incubator Funds“ 2024, die vom NFDI-Konsortium „4Memory“ der historisch arbeitenden Geisteswissenschaften ausgeschrieben werden, hat das Projekt „ASR4Memory“ einen KI-gestützten Transkriptionsservice für historische audiovisuelle Forschungsdaten aufgebaut, der u.a. in dem Forschungsfeld der Oral History zur Anwendung kommt.
Ausgangslage
In vielen Bibliotheken, Archiven, Universitäten, Museen und Gedenkstätten existieren bislang nicht erschlossene Sammlungen audiovisueller Quellen, die sich zum Beispiel aus Zeitzeugeninterviews, Fernsehmitschnitten, Radioübertragungen, Dokumentarfilmen, Aufzeichnungen politischer/wissenschaftlicher Vorträge, Mitschnitte von Gerichtsverfahren oder Feldinterviews zusammensetzen. In den Einrichtungen besteht ein großes Interesse, diese wertvollen audiovisuellen Ressourcen technisch aufzubereiten, wissenschaftlich zu analysieren, nach den FAIR-Standards zugänglich zu machen sowie bei neu entstehenden („Digital-Born“) Aufzeichnungen die Nachnutzbarkeit mitzudenken. Die Transkription der darin gesprochenen Sprache bildet dafür eine wichtige Voraussetzung. Mit der rasanten Weiterentwicklung der Künstlichen Intelligenz (KI) eröffnen sich vielfältige Möglichkeiten für die Transkription mit Hilfe automatischer Spracherkennung (Automatic Speech Recognition, ASR), die auch in wissenschaftlichen Kontexten wie der Oral History an Bedeutung gewinnen.
Die Nutzung von Open-Source-Spracherkennern bietet zwei wesentliche Vorteile: Zum einen reduziert sie in erheblichem Maße die Datenschutzproblematik, da die audiovisuellen Ressourcen nicht in kommerziellen Cloudumgebungen, sondern ausschließlich auf lokalen Servern der Freien Universität Berlin verarbeitet werden. Zum anderen lassen sich die Kosten, die im Falle umfangreicher Sammlungen für viele Einrichtungen nicht oder nur schwer finanzierbar sind, im Vergleich zu manuellen Transkriptionen und kommerziellen Transkriptionsdiensten deutlich verringern.
Das Angebot zur automatischen Transkription audiovisueller Forschungsdaten wurde sehr gut angenommen und hat gezeigt, dass in der Forschungscommunity ein großer Bedarf daran besteht. Nahezu 30 Einrichtungen stellten Forschungsdaten für eine Pilotnutzung in der Transkriptionspipeline bereit. Die Aufzeichnungen lagen in verschiedenen Sprachen vor, u.a. in Deutsch, Französisch, Portugiesisch, Spanisch, Englisch, Arabisch und Ukrainisch. Durch die Ausrichtung eines praxisorientierten Online-Workshops im März 2024 mit Inhaber*innen von audiovisuellen Datenbeständen und den direkten Austausch mit den Pilotnutzenden wurden die „Bedarfe, Anforderungen und kritische Bewertung des automatisierten Transkriptionsservices“ (Workshop-Titel) sowie die Ausgestaltung eines langfristigen Betriebsmodells beleuchtet. Berücksichtigt wurden technische und funktionale Anforderungen, Schnittstellenbedarfe, Metadatenmodelle, Nutzungsszenarien sowie rechtliche und ethische Aspekte. In diesem Zusammenhang diskutierten wir die Fragen von Diskriminierung sprachlicher Minderheiten und Rassismus sowie generell hinsichtlich der Intransparenz von KI-Methoden. Durch den kontinuierlichen Austausch mit den Pilotnutzenden wurden vielfältige Anwendungsszenarien mit individuellen Bedarfen und Herausforderungen identifiziert, die in die Entwicklungsarbeit einflossen. Im Gegenzug erhielten die Nutzenden qualitativ hochwertige Transkripte ihrer audiovisuellen Ressourcen für die Nachnutzung.
Projektresultate
Die Entwicklungsergebnisse sind seit Januar 2025 als Web-Service der Freien Universität Berlin oder als lokale Installation der Open-Source-Software für Interessierte nutzbar (siehe die Links am Ende des Beitrags). Die technische Grundlage der Transkriptionsstrecke bildet „WhisperX“, eine an der Universität Oxford entwickelte Open-Source-basierte Re-Implementierung des Spracherkenners „Whisper“ der Firma OpenAI, die auch das bekannte Large Language Modell „ChatGPT“ entwickelt hat. „WhisperX“ hat sich in der internen Evaluation als der für die identifizierten Bedarfe geeignetste automatisierte Spracherkenner (ASR) herausgestellt und wurde zur Weiterentwicklung in diesem Projekt ausgewählt. Die auf Grundlage der Programmiersprache „Python“ entwickelte Pipeline, die aus ineinandergreifenden Pre- und Postprocessing-Komponenten aufgebaut ist, ermöglicht eine hohe Transkriptqualität bei einer gleichzeitig hohen Zeiteffizienz in der Datenverarbeitung. Zudem werden Datenschutz und -interoperabilität sichergestellt.
Für den Datenaustausch wurde eine browserbasierte Weboberfläche (Media Management Tool – MMT) entwickelt, über die die Sammlungsinhaber*innen ihre audiovisuellen Ressourcen auf die an der Freien Universität Berlin betriebenen Transkriptionsplattform laden, in der die Daten sicher und datenschutzkonform ausschließlich auf lokalen Servern verarbeitet werden.
In einem ersten Schritt wird die Integrität des audiovisuellen Digitalisats automatisch geprüft. Um eine höchstmögliche Transkriptionsqualität zu gewährleisten, wird die Tonspur aus der Mediendatei in einem für die automatische Transkription passenden Audioformat extrahiert und das darin enthaltene Sprachsignal für die nachfolgende Spracherkennung automatisch tontechnisch optimiert (Anpassung der Lautstärke, Hervorhebung der Sprachfrequenzen). Danach folgt die Transkription in der Originalsprache (aktuell sind 30 Sprachen möglich) mit passgenauen Einstellungen, woraus schließlich die Transkriptformate erzeugt und im letzten Schritt den Nutzer*innen online über eine sichere Datenübertragung bereitgestellt werden.
Abbildung 1: Schematischer Workflow der Transkriptionspipeline mit den einzelnen Arbeitsschritten.
Um die vielfältigen Bedürfnisse der Nutzenden abzudecken, werden verschiedene Transkriptformate generiert, darunter TXT- und ODS-Dateien zur manuellen Nachbearbeitung in Textverarbeitungsprogrammen, CSV- und JSON-Dateien zur automatischen Datenverarbeitung in weiteren Systemen (z.B. Repositorien), VTT- und SRT-Dateien zur Untertitelung von AV-Medien in Software-Playern sowie PDF-Dateien zur Bereitstellung und Langzeitsicherung der Transkripte. Zum Teil enthalten die Exportdateien Sprecher*innenauszeichnungen sowie wort- oder satzbasierte Zeitmarken (Timecodes). Auch eignen sich die Formate für den Import in die Erschließungs- und Recherche-Plattform „Oral-History.Digital“, wofür aktuell Schnittstellen zum 4Memory Data Space entwickelt werden. So können Transkripte mit entsprechenden Nutzungsrechten der 4Memory-Community zugänglich gemacht werden.
Abbildung 2: Beispiel des Untertitelformats VTT mit satzbasierten Zeitmarken und englischer Transkription.
Die exakte Zeitkodierung der Transkripte mit millisekundengenauen Zeitmarken (für jeden Satz und jedes Wort) ermöglicht ihre Synchronisierung mit den audiovisuellen Medien und führt somit zu einer verbesserten Auffindbarkeit, Zugänglichkeit, Interoperabilität und Nachnutzbarkeit (FAIR) der audiovisuellen Ressourcen in digitalen Anwendungen. Schließlich eröffnen sich durch die Verschriftung der Ton- und Filmaufnahmen plattformübergreifende Analyse-, Kontextualisierungs- und Metadatenoptionen, u.a. im Bereich der Textanalyse und des Natural Language Processings.
Abbildung 3: Beispiel der CSV-Ausgabedatei mit wortbasierten Timestamps und deutscher Transkription.
Neben dem Service-Angebot an der Freien Universität Berlin ist der Quellcode open source in öffentlichen GitHub-Repositorien veröffentlicht. Somit können die Nutzenden selbständig und dezentral die Pipeline auf lokalen Maschinen aufsetzen, datenschutzkonform betreiben, den Quellcode eigenständig weiterentwickeln und in der Forschungscommunity weiter verteilen.
Schwachstellen der Spracherkennung
Auch wenn die neue Generation der KI-basierten Spracherkenner eine deutlich höhere Qualität bei der automatischen Transkription audiovisueller Daten ermöglicht, weisen auch diese Schwächen auf. Der schwerwiegendste (wenn auch eher seltene) Fehler ist die sog. Halluzination, bei der nicht gesprochene Inhalte, die ursprünglich aus den KI-Trainingsdaten stammen, fälschlicherweise generiert (sprich erfunden) werden und keinerlei inhaltlichen Bezug zum Gesprochenen haben. Ein weiteres Defizit besteht in der Falscherkennung von wichtigen Entitäten wie Personennamen, Organisationen, Orten oder Ereignissen.
Nachfolgend ein Beispiel:
Gesprochener Text: „Ja, das war Sommer 89, wo die dann alle da in Prag, da in der Botschaft gesessen haben und der Genscher hat sie dann da rausgekloppt.“
Erkannter Text: „Ja, das war Sommer 89, wo die dann alle da in Prag da in der Botschaft gesessen haben und der Kenja hat sie dann da rausgeklappt.“
Zudem haben die ASR-Tools zum Teil Probleme damit, einen gesprochenen Satz dem/der jeweiligen Sprecher*in korrekt zuzuordnen, was besonders bei schnellen Sprecherwechseln, parallelem Sprechen und im Falle vieler Sprecher*innen auftritt.
Des Weiteren „glätten“ die Spracherkenner das Transkript, in dem Füllwörter, Wortwiederholungen, Satzabbrüche und Verzögerungen oft nicht transkribiert werden. Beispiele:
Gesprochener Text: „Wir wohnten damals in Berlin-Köpenick. In_ in_. Äh, ähm, na, eine Hütte war es ja eigentlich gewesen.“
Erkannter Text: „Wir wohnten damals in Berlin-Köpenick. In einer Hütte war es ja eigentlich.“
Zudem werden nicht-sprachliche Lautäußerungen (wie Lachen oder Weinen), Sprechpausen und direkte Rede nicht transkribiert:
Gesprochener Text: „Ich sage: ‚Weißt du was, jetzt fahre ich mal schnell rüber, hole uns ein paar Zigaretten.‘ <s(lachend) Fahre die Schönhauser runter, bieg in die Brunnenstraße ein,> da standen sie, einer nebeneinander.“
Erkannter Text: „Ich sage, weißt du was, jetzt fahre ich mal schnell rüber, hol uns ein paar Zigaretten. Ich fahre da schön runter und da kriege ich eine Brunnenstraße hin. Da standen sie jeder nebeneinander.“
Die Spracherkenner führen grammatikalische Korrekturen, insbesondere beim Satzbau, durch. Zudem werden Dialekte und Akzente ins Hochdeutsche transformiert:
Die KI-basierte Spracherkennung weist einige Schwächen auf, erzeugt Transkriptionsfehler und ermöglicht keine rein wortgetreue Transkription. Daher wurde im Projekt geprüft, ob über das Feintuning des Spracherkennungsmodells mit domänenspezifischen Trainingsdaten die Transkriptqualität erhöht werden kann. Dafür ausgewählt wurden bereits optimal transkribierte Oral-History-Interviews mit hoher Audioqualität. Da die für das Training erforderliche Aufbereitung ein sehr zeitaufwändiger Arbeitsschritt ist, wurden im Projekt effiziente Workflows entwickelt, in denen mehrere KI-unterstützte Komponenten die technischen Aufgaben übernehmen. Zur Aufbereitung gehören, erstens, die Klärung der rechtlichen Bedingungen für die Nutzung der Forschungsdaten im KI-Training. Zweitens wird ein technisch komplexes Preprocessing durchgeführt, das die textuellen und audiovisuellen Daten in einzelne Segmente aufsplittet (insgesamt etwa 190.000) und in das für Deep-Learning optimierte HDF5-Format konvertiert. Drittens stellt die textuelle und akustische Anonymisierung der Zeitzeugeninterviews sicher, dass die in der Aufzeichnung genannten sensiblen Informationen sowohl aus dem Transkript als auch aus der Tonspur automatisiert entfernt werden. Mithilfe einer LLM-gestützten Named Entity Recognition (NER) werden die zu anonymisierenden Entitäten wie Namen und Adressen erkannt, die wiederum in der Tonspur mit dem FFmpeg-Tool millisekundengenau unkenntlich gemacht werden. Der Anonymisierungsvorgang erfolgt zum einen aufgrund rechtlicher Vorgaben des High-Performance Computers sowie aus ethischen Gründen mit Blick auf die Zeitzeugen und ihre aufgezeichneten Erfahrungsberichte. Zudem verhindert die Anonymisierung der Trainingsdaten unerwünschte Halluzinationen von sensiblen Informationen aus den Trainingsdaten, die in der Anwendung des trainierten Modells bei anderen audiovisuellen Ressourcen auftreten könnten.
Feintuning der Spracherkenner
Im Rahmen eines Proof-of-Concepts konnten wir nachweisen, dass sich über ein Deep-Learning-basiertes Finetuning des Spracherkennungsalgorithmus auf dem High-Performance Computer der Freien Universität Berlin eine signifikante Verbesserung der Transkriptqualität erzielen lässt. Das Feintuning wird maßgeblich von den Hyperparametern beeinflusst, welche vorab festgelegt werden und den Lernprozess des ASR-Modells steuern. Um einen möglichst hohen Trainingseffekt zu erzielen, werden aus einer Vielzahl möglicher Hyperparameter die wirkungsstärksten Parameter mit entsprechenden Einstellungen identifiziert (z.B. Learning Rate, Anzahl der Trainingsepochen). Für die Optimierung der Hyperparameter setzen wir bayessche Statistikmethoden und die Bibliothek „Ray Tune“ ein, um verschiedene Kombinationen von Hyperparametern parallel und in iterativen Durchläufen (Epochen) über die Trainingsdaten zu prüfen und die besten Trainingsmodelle auszuwählen.
Abbildung 4: Schematische Darstellung der Hyperparameter-Optimierung, die verschiedene Hyperparameter-Kombinationen (farbige Linien) testet und schrittweise (je „Epoche“) die schlechteren Modelle mit höheren Fehlerwerten verwirft, sodass nur die besten bis zum optimalen Ergebnis weitertrainiert werden (in diesem Beispiel das Modell A).
Durch das Hyperparameter-Finetuning konnte die Spracherkennung systematisch verbessert und eine höhere Transkriptqualität erreicht werden. In der Auswertung des feingetunten Modells zeigte sich, dass durch das domänenspezifische Training zum einen die quantitative Wortfehlerrate signifikant reduziert wurde (für das kleinste Modell um etwa 10 Prozent). Zum anderen wurden auch historische Begriffe und Eigennamen deutlich besser erkannt und somit qualitative Verbesserungen des Spracherkenners erzielt (etwa 15 Prozent). Jedoch konnten wir den Machbarkeitsnachweis aufgrund der begrenzten Rechenkapazitäten nur bei den kleineren Sprachmodellen durchführen. So beanspruchten die Trainingsprozesse auf dem High-Performance Computer viel Zeit und erzeugten große Datenmengen. Dennoch lässt sich aus den Ergebnissen folgern, dass – sofern ausreichende Rechenkapazitäten und fachlich kuratierte Trainingsdaten vorliegen – die Entwicklung domänenspezifischer Spracherkennungsmodelle machbar ist. Indem sie schwerwiegende Fehler reduzieren (insbesondere bei Personennamen, Orten und Ereignissen), erzielen sie eine signifikant höhere Transkriptgenauigkeit und schaffen so einen erheblichen Mehrwert für die jeweilige Fachdisziplin.
Evaluation der Transkription
Bislang wird zur Bewertung von Spracherkennern meist die Wortfehlerrate herangezogen, die eine wichtige quantitative und vergleichbare Metrik darstellt. Die Wortfehlerrate ist allerdings nur bedingt aussagekräftig: Die fehlerhafte Transkription von wichtigen historischen Begriffen und Eigennamen ist deutlich problematischer als die Transkription eines falschen Artikels oder Füllworts. Jedoch bewertet die Wortfehlerrate beide Fehlerarten gleich. Um die diese Defizite systematisch zu analysieren (und künftig zu reduzieren), wurde ein Evaluationsverfahren mit der Zielsetzung entwickelt, die quantitativen Evaluationsergebnisse über eine qualitative Bewertung der Transkriptionsgüte zu ergänzen.
Zentraler Baustein in diesem Verfahren ist ein lokal betriebenes, offlinefähiges und Open-Source-basiertes Large Language Modell (LLM), das mit 70 Milliarden Parametern komplexe Aufgabenstellungen bewältigt, allerdings große Rechenressourcen bei der Anwendung benötigt. Zunächst definierten wir trennscharfe Fehlerkategorien und gewichteten diese nach ihrer Relevanz für die Transkriptqualität (unter Einbezug der bisher mit den automatischen Transkripten arbeitenden Historiker*innen an der FU Berlin). Das LLM kategorisiert (auf Grundlage eines spezifischen Prompts) die auftretenden Fehler und berechnet die Fehlerverteilung im erzeugten Transkript. Die erzeugte Auswertung zeigt die Häufigkeit der auftretenden Fehlertypen auf und gibt Rückschluss darüber, wie schwerwiegend die Fehler für die Transkriptqualität sind. Dieser gemischte Ansatz hat sich als sehr hilfreich in der Bewertung KI-unterstützter Spracherkenner erwiesen.
Die folgenden Diagramme zeigen die einzelnen Fehlerkategorien und die Fehlerhäufigkeiten des originalen sowie des feingetunten Modells. Zum Beispiel repräsentiert „d2“ das „Entfernen eines bedeutungsvollen Wortes mit inhaltlicher Relevanz“ oder „i2“ das „Einfügen eines halluzinierten bedeutungsvollen Wortes“. Die „weights“ definieren die Gewichtung des Fehlertyps hins. der Transkriptqualität. Je höher der Wert, desto größer die Relevanz für die Transkriptqualität.
Abbildung 5: Vergleich der (gewichteten) Fehlerhäufigkeiten zwischen dem Original-Modell (blau) und feingetunten Modell (orange).
Abbildung 6: Darstellung der Fehlerreduktion zwischen dem Original-Modell (links) und dem feingetunten Modell (rechts).
Nächste Schritte
Aktuell arbeiten wir daran, ein domänenspezifisches Spracherkennungsmodell für die historisch arbeitenden Geisteswissenschaften zu entwickeln. Dabei verfolgen wir das Ziel, dass in deutschsprachigen Aufzeichnungen historische Begriffe und Zusammenhänge wie Orte, Ereignisse und Eigennamen mit noch höherer Wahrscheinlichkeit korrekt erkannt und die für KI-Anwendungen charakteristischen Halluzinationen verringert werden. Zudem sollen sowohl non-verbale Kommunikationsereignisse und Sprechpausen millisekundengenau erfasst als auch die multilinguale Transkription von mehrsprachigen Quellen ermöglicht werden. Die Zielstellung ist, dieses optimierte und domänenspezifische Modell als open source der Fachcommunity zur Nutzung in Forschungskontexten zur Verfügung zu stellen.
Zum anderen haben wir den Bedarf identifiziert, das Spracherkennungsmodell mit selteneren Sprachen (z.B. Aramäisch, Quechua) zu trainieren und somit deren automatische Transkription zu ermöglichen. Diese angepassten Modelle könnten in unsere Transkriptionspipeline integriert und somit den entsprechenden Communities zugänglich gemacht werden.
Für die Anbindung an weitere Plattformen und Repositorien sollen zusätzliche wissenschaftliche Exportformate über die Transkriptionspipeline zukünftig angeboten werden, so die Austauschformate TEI-XML und/oder IIIF-AV.
Das Projekt wird durchgeführt von Dr. Tobias Kilgus, Peter Kompiel, Marc Altmann und Dr. Christian Horvat.
Der März beginnt direkt mit einem großen Event: der DHd2025.
Unter dem Motto "Under Construction" kommen für eine Woche die Digital Humanitites des deutschsprachigen Raums in Bielefeld zusammen. NFDI4Memory darf dabei natürlich nicht fehlen!
Wir sind auf vielfältige Art vertreten und stellen die Arbeit von NFDI4Memory vor:
Mit den Humanities@NFDI – der Zusammenschluss der vier geisteswissenschaftlichen Konsortien der NFDI: NFDI4Culture, Text+, NFDI4Memory & NFDI4Objects – haben wir am Mittwoch und Donnerstag einen Stand, an denen ihr in den Pausen Vertreter:innen der Konsortien antreffen und mit Ihnen ins Gespräch kommen könnt. Wir freuen uns über Euren Besuch!
Einen weiteren Einblick in die Arbeit unseres Konsortiums bieten die zahlreichen Workshops und Vorträge von 4Memory Akteur:innen:
Datum/ Zeit
Veranstatlungstitel
Raum
beteiligte 4Memory Akteur:innen
Mo. 03.03.2025,
14:00 – 17:30
Workshop 4: Erprobung eines Metadatenmodells zur Beschreibung von FDM-Services
HSBI B 444
Marina Lemaire (Uni Trier)
Mo. 03.03.2025,
14:00 – 17:30
Workshop 7 (1/2): OERs Under Construction. Ein Workshop zu Gestaltung und Evaluierung von Open Educational Resources für die Digital Humanities (1/2)
HSBI B 442
Stefan Schmunk (h_da),
Torsten Hiltmann (HU Berlin)
Di. 04.03.2025,
9:00 – 12:30
Workshop 7 (2/2): OERs Under Construction. Ein Workshop zu Gestaltung und Evaluierung von Open Educational Resources für die Digital Humanities (2/2)
HSBI B 442
Stefan Schmunk (h_da),
Torsten Hiltmann (HU Berlin)
Di. 04.03.2025,
9:00 – 17:30
Workshop 12: Qualitativ hochwertige Metadaten in digitalen Editionen
HSBI B2
Anna-Lena Körfer (HI)
Di. 04.03.2025,
9:00 – 17:30
Workshop 19: Wer weiß schon wo? Identifikation, Erfassung und Systematisierung historischer Ortsangaben
HSBI C3
Anne Purchwitz (MLU), Felix Köther (HI),
Marta Koscielniak (BSB)
Mi. 05.03.2025,
12:30 – 14:00
Promovierende Digital History: Offenes Treffen NFDI4Memory Promovierendennetzwerk Digital History
HSBI B 439
Jascha Schmitz (HU Berlin)
Mi. 05.03.2025,
14:00 – 15:30
Mittwoch 3:2: Normdaten:
Kontrollierte Vokabulare, Thesauri, Klassifikationen, Normdaten?
Ein Ordnungs- und Bewertungssystem für wissenschaftliche Vokabulare: Das Register für historische und objektbezogene Vokabulare und Normdaten (R:hovono)
HSBI D1
Marius Wegener,
Julian Freytag,
Katja Liebing,
Katrin Möller,
Olaf Simons,
Anne Purschwitz
(alle MLU)
Do. 06.03.2025,
16:00 – 17:30
Poster (2/2): Postersession:
Historischer Thesaurus (HIT), in Kooperation mit NFDI4Memory
HSBI Magistrale &
Köther, F., & Donig, S. (2025). Die Begriffe der Geschichte. Der "Historische Thesaurus (HIT)" als Normdatenressource für die historisch arbeitenden Geisteswissenschaften. DHd 2025 Under Construction (DHd2025) (DHd2025), Bielefeld, Deutschland. Zenodo. https://doi.org/10.5281/zenodo.14944551
Felix Köther,
Simon Donig
(beide HI)
Do. 06.03.2025,
16:00 – 17:30
Poster (2/2): Postersession:
Kleine Formate, große Chancen: Pragmatische Fördermodelle als Katalysator für die DH in NFDI4Memory und HERMES
HSBI Magistrale &
Buyken, C., Garzón Rodríguez, J., & Cremer, F. (2025). Kleine Formate, große Chancen: Pragmatische Fördermodelle als Katalysator für die DH in NFDI4Memory und HERMES. DHd 2025 Under Construction (DHd2025) (DHd2025), Bielefeld, Deutschland. Zenodo. https://doi.org/10.5281/zenodo.14944559
The Data Librarian‘s construction site: Nachweis von Forschungsdaten in Bibliotheken – Desiderate, Herausforderungen und Lösungsansätze
HSBI Magistrale &
Grumbach, F., Štanzel, A., & Kościelniak, M. (2025). The Data Librarian's construction site: Nachweis von Forschungsdaten in Bibliotheken – Desiderate, Herausforderungen und Lösungsansätze. DHd 2025 Under Construction (DHd2025) (DHd2025), Bielefeld, Deutschland. Zenodo. https://doi.org/10.5281/zenodo.14944525
Florian Grumbach,
Arnošt Štanzel,
Marta Koscielniak
(alle BSB)
Aus einem gemeinsamen Workshop der NFDI4Memory Task Area TA Data Literacy und den Fachinformationsdiensten ist eine Artikelserie entstanden. Die acht Beiträge werden in den kommenden Wochen in dem Online-Journal Connections veröffentlicht.
Den Auftakt machten U. Lehmkuhl/M. Middell/E. Ommert/K. Schlütter mit "Forschungsdaten in den Area Histories: die NFDI4Memory und die Fachinformationsdienste" (2025) https://doi.org/10.60693/n652-rk29
Acht weitere Beiträge werden folgen:
Duncan Paterson, Forschungsdaten in den Area Histories: der FID Asien und die NFDI4Memory
Nicole Merkel-Hilf, Forschungsdaten in den Area Histories: der FID Südasien und die NFDI4Memory
Josef Jeschke und Volker Adam, Forschungsdaten in den Area Histories: der FID Nahost-, Nordafrika- und Islamstudien und die NFDI4Memory
Sabine Imeri, Forschungsdaten in den Area Histories: der FID Sozial- und Kulturanthropologie und die NFDI4Memory
Kerstin von der Krone, Forschungsdaten in den Area Histories: der FID Jüdische Studien und die NFDI4Memory
Christoph Müller, Forschungsdaten in den Area Histories: der FID Lateinamerika, Karibik und Latino Studies und die NFDI4Memory
Ruth Sindt, Forschungsdaten in den Area Histories: der FID Nordeuropa und die NFDI4Memory
Arnošt Štanzel und Jakob Reuster, Forschungsdaten in den Area Histories: der FID Ost-, Ostmittel- und Südosteuropa und die NFDI4Memory
das alte Jahr neigt sich dem Ende zu und wir möchten uns für das Interesse an unserer Arbeit, die Unterstützung sowie die Zusammenarbeit bedanken!
Wir freuen uns auf das neue Jahr und möchten bereits einige Highlights mit Euch teilen, die gerne schon in die Kalender für 2025 vorgemerkt werden dürfen. Zu allen Terminen folgen weitere Informationen zu gegebner Zeit über den Newsletter.
Veranstaltungen:
OER-Vernetzungsworkshops der geistes- und sozialwissenschaftlichen Konsortien (Darmstadt) – 05.-06.02.2025
Lunchbreak@4Memory Incubator Funds (online) – 18.03., 25.03. und 01.04.2025 – Vorstellung der fünf Incubator Funds Projekte für 2025
Hands on – Datenkuration – tba(regelmäßige Termine zwischen März und Juli) – Eine digitale Workshopreihe zu Arbeitstechniken und Hilfsmitteln der Datenkuration in der wissenschaftlichen Praxis
Vorstellung von R:hovono (Register für historische und objektbezogene Vokabulare und Normdaten) – DHd2025 und andere Tagungen
FDM-Basiskurs für die historischen Wissenschaften (Selbstlernkurs) – Frühjahr 2025
NFDITalks: OER-Metadata (online) – 19.05.2025 – Vortrag von Petra Steiner & Marina Lemaire
2. 4Memory Linking Data|Linking Communities Summer School (Herder-Institut für historische Ostmitteleuropaforschung – Institut der Leibniz-Gemeinschaft in Marburg) – 10.-12.09.2025
Pre-Conference im Vorlauf zum Community Forum und Historikertag (Bonn) – 15.09.2025
3. NFDI4Memory Community Forum (im Vorfeld des 55. Historikertags in Bonn) – 16.09.2025
NFDITalks: Registry für Werkzeuge, Methoden und Publikationen auf Wikidata (Arbeitstitel | online) – 06.10.2025 – Vortrag von Till Grallert
2. Retreat des NFDI4Memory Promovierenden Netzwerks (tba) – Herbst 2025
Expert:innentreffen zum Thema „Wissenschaftliches Publizieren in der digitalen Transformation" (tba) – tba – Erstes Treffen der Expert:innenrunde von Measure 4. der TA Data Culture
NFDITalks: Fachspezifische Normdaten und Verzeichnis für Vokabulare: R:hovono & OhdAB (online) – 17.11.2025 – Vortrag von Katrin Moeller
Publikationen:
(soft) Relaunch der neuen Website von NFDI4Memory – Frühjahr 2025
Whitepaper zum 4M Data Literacy Kompetenzrahmen (Arbeitstitel) – 1. Quartal 2025
Online-Katalog mit Lern- und Lehrmaterialien zum Thema Datenkompetenz in den historischen Disziplinen (Online-Plattform) – 1. Quartal 2025
Publikation des Tagungsbandes Digital History & Citizen Science – tba
Whitepaper Empfehlungen zur Datenkuration mit verschiedenen Workshops (Religiöse Vokabulare und Haft- und Lagerstättenverzeichnis; Minimaldatansatz Ortsdaten, Berufsdaten) – tba
Calls:
Sammlung von Musterdatensätzen für die Lehre (Arbeitstitel) – Aufruf – 1. Quartal 2025
Förderungen:
2. Runde 4Memory Reisestipendien – tba
...und vieles, vieles mehr an Veranstaltungen, Calls und Publikationen wird das neue Jahr für die NFDI4Memory Community bereit halten.
Das gesamte NFDI4Memory Konsortium wünscht allen frohe erholsame Festtage und herzliche Grüße!
Die Geschichts- und Kulturwissenschaften und ihre Infrastruktureinrichtungen sind zunehmend bestrebt, Forschungsdaten zu historischen Beständen aus ethisch-sensiblen Kontexten aufzubereiten. Erste Ansätze zum Umgang mit datenethischen Fragen wie die Formulierung der CARE Prinzipien „for Indigenous Data Governance“, Vorschläge für diskriminierungsfreie Metadaten oder individuelle Lösungen einzelner Einrichtungen bestehen bereits oder befinden sich in der Entwicklung. Hier setzte der Workshop „Große Anforderungen an kleine Textfelder: Ethische Fragen an Metadaten historischer Quellen“ an und schuf Raum für Diskussionen um Bedarfe und Lösungsansätze. Der Workshop fand am 21. und 22. November 2024 am Herder-Institut in Marburg und online statt und wurde unter gemeinsamer Initiative von NFDI4Memory Task Area Data Quality und DARIAH-DE organisiert.
Am ersten Tag skizzierten Peggy Große und Mario Kliewer einleitend vorhandene Diskurse und Standards der Datenethik in den Geschichts- und Kulturwissenschaften. Es wurde deutlich, dass ethische Aspekte schon lange implizite Bestandteile der Forschungspraxis sind, ihre konkreten Umsetzungen vor allem im Rahmen von Metadaten aber noch weitestgehend Desiderate darstellen. Dass dennoch Bedarfe an Richtlinien und praktischen Anleitungen bestehen, verdeutlichten Grischka Petri und Oliver Vettermann anschaulich mit ihrem Bericht aus dem Alltag des NFDI4Culture-Legal-Helpdesks. Sie fokussierten dabei insbesondere auf die Heterogenität der jeweiligen Bestände, für die kaum systematische oder pauschale Lösungen ethischer Herausforderungen gemacht werden können. Diesen Befund erweiterte Michaela Rizzolli mit ihrem Vortrag zu den CARE Principles for Indigenous Data Governance um eine ethische Sichtweise aus den ethnologischen Disziplinen. Die CARE-Prinzipien seien demnach nur eingeschränkt über den historischen Entstehungskontext und die anschließende Weiterentwicklung der Prinzipien hinaus verwendbar. Insgesamt wurde der Bedarf fachspezifischer Richtlinien und Praktiken deutlich.
Im nächsten Panel widmete sich eine Reihe von Beiträgen konkreten Projekterfahrungen. Noёlle Schnegg und Levyn Bürki stellten das “Handbuchprojekt zur Erstellung diskriminierungsfreier Metadaten für historische Quellen und Forschungsdaten” vor, das als Living Document in Zusammenarbeit mit der Community weiter ausgebaut und um zusätzliche Dimensionen ergänzt werden soll. Lisa Quade berichtete über den Aufbau des Portals „Sammlungsgut aus kolonialen Kontexten“ der Deutschen Digitalen Bibliothek. In enger Abstimmung mit deutschen Kulturerbeeinrichtungen und Expert:innen aus Herkunftsländern wurden verschiedene Präsentationsformen für ethisch sensible Materialien entwickelt. Anschließend zeigte Johannes Wolff in einem Werkstattbericht aus der Deutschen Fotothek anhand des von 2015 bis 2017 in Kooperation mit den Staatlichen Kunstsammlungen Dresden durchgeführten DFG-Projekt “Weltsichten”, wie Aspekte eines sensiblen Umgangs mit Fotografien aus ethisch problematischen Zusammenhängen umgesetzt wurden. Zugleich betonte er, dass ethische Ansprüche nicht selten mit Förderrichtlinien für Massendigitalisierung, technischen Möglichkeiten und pragmatischen Entscheidungen in Konflikt stehen können. Der erste Tag endete mit einem Impuls zur Rolle von Entitäten in Metadatenschemata von Eike Martin Löhden. Er stellte das Konzept von Entitäten Modellen in modernen Repositorien vor und illustrierte es anhand eines Beispiels des Marburger Urkundenrepositoriums.
In den zum Teil kontrovers geführten Anschlussdiskussionen, die unter anderem die Widersprüche zwischen aktuellen Open-Data-Anforderungen in Förderrichtlinien und ethischen Rahmensetzungen verdeutlichten, zeigte sich, dass ethisch sensibilisierte Praktiken an allen Stellen des Datenlebenszyklus verankert werden müssen.
Am zweiten Workshoptag wurden Hands-On bestehende Ansätze und Lösungsvorschläge an konkreten Beispielen diskutiert. In vier Gruppen hatten die Teilnehmenden die Möglichkeit, Herausforderungen bei der Zuordnung von Metadaten zu ethisch sensiblen Materialien aus den Beständen des Herder-Instituts zu erörtern und mögliche Lösungsansätze vorzustellen. In allen Gruppen wurde lebhaft darüber diskutiert, wie bspw. mit Namen umzugehen ist, wie man Schlüsselwörter wählt, eine ausreichende Beschreibung erstellt oder mittels Disclaimer Hinweise auf sensible Materialien in das Frontend/die Nutzeroberfläche einbindet.
Die vielfältigen Vorschläge zum Umgang mit ethisch sensiblen Informationen und der Änderung oder Erweiterung vorhandener Metadatenschemata ergänzten die theoretischen Aspekte der Diskussionen des ersten Tages um praktische Lösungsansätze und zeigten Perspektiven auf, wie man mit Hilfe kleiner (oder größerer) Textfelder, aber auch durch Verlinkungen anderer Ressourcen, der Einbindung von Normdaten und vielem mehr den vielschichtigen ethischen Anforderungen der historischen Bestände besser gerecht werden kann.
Autor:innen: Anna Pravdyuk, Grigori Chlesberg, Mario Kliewer, Peggy Große, Anna-Lena Körfer und Ole Meiners
Noch 2020 beklagten Kiran Klaus Patel, Professor für Europäische Geschichte an der LMU und Frank Bischoff, Präsident des Landesarchivs Nordrhein-Westfalen, in einem Aufsatz das „Schweigen zwischen Geschichtswissenschaft und Archiven im digitalen Zeitalter“¹. Inzwischen tauschen sich Archive und Geschichtswissenschaft verstärkt über die digitale Transformation aus, durch die sich neue Möglichkeiten, aber auch Herausforderungen für Archive und Digital History bieten und stellen. Nicht zuletzt das Konsortium NFDI4Memory fungiert dabei als wichtige Kommunikationsplattform und als gemeinsames Handlungsfeld. Bereits kurz nach Start des Konsortiums im Juni 2023 widmete sich das 27. Archivwissenschaftliche Kolloquium unter dem Titel „Archivists meet Historians – Transferring source criticism to the digital age“ dem gemeinsamen Querschnittsthema der digitalen ²
Auf der ersten „Linking Data|Linking Communities“ 4Memory Summer School, die organisiert vom Landesarchiv Baden-Württemberg vom 24. bis 26. September 2024 in Stuttgart veranstaltet wurde, ging es um die Schnittstellen zwischen Archivwesen und Digital History. Drei Tage lang diskutierten fast 30 Personen über digitale Methoden und Use Cases in Archivwesen und Digital History, durch das Programm führten Kai Naumann und Timo Holste (Landesarchiv Baden-Württemberg). Versammelt waren in Stuttgart Repräsentant*innen der GLAM-Einrichtungen, der historischen Forschung und von Ausbildungseinrichtungen für Archive.
Den Auftakt der Veranstaltung bildete die Keynote, in der Björn Beck (Staatsministerium Baden-Württemberg) unter dem Titel „KI - Gamechanger für die Verwaltung?“ am Beispiel der Justiz Baden-Württemberg darstellte, wie KI in Massenverfahren der Justiz und Verwaltung in Baden-Württemberg eingesetzt wird und welche disruptiven Effekte sich aus dem KI-Einsatz ergeben werden.
Der zweite der Tag der Summer School startete mit der Präsentation von Nico Beyer und Felix Gericke (Freie Universität Berlin/ EMILiA-Projekt), die den Teilnehmenden unter dem Titel „EMILiA: Was benötigen die Forschenden? Entwicklung einer Software für die Archivierung und Nutzbarmachung von E-Mails“ Einblicke in die Entwicklung eines Tools zur Übernahme, Bewertung, Erschließung und Auswertung von E-Mails gewährten. Maximilian Stimpert und Johannes Haslauer (Staatsarchiv Bamberg) präsentierten unter dem Titel „Forschung an Archivalien – Archivische Erschließung & Digital Humanities“ Erfahrungen aus dem durch die 4Memory Incubator Funds finanzierten Projekt „Hands-on Normdaten! Use Case zur communityorientierten, ressourceneffizienten und kreativen Implementierung der Gemeinsamen Normdatei (GND) in den Erschließungsworkflow einer staatlichen Archivverwaltung am Beispiel Bayerns“. Anhand eines Use Cases inszenierten die beiden einen archivisch-akademischen Dialog über die Vorteile, die die Anreicherung archivischer Findmittel mit der GND im Kontext der Digital History bietet. Andreas Nestl und Michael Unger (Generaldirektion der Staatlichen Archive Bayerns) sowie Kai Naumann (Landesarchiv Baden-Württemberg) sprachen sodann über das in den Digital Humanities bislang weniger bekannte Thema „Archivische Bewertung - was ist das und wo stehen wir?“. Dabei führten die Referenten nicht nur in die Grundlagen der archivischen Bewertung ein, sondern stellten überdies diverse Tools zur automatisierten Bewertung von Verwaltungsschriftgut aus ihren Häusern vor. Den Abschluss des zweiten Veranstaltungstags bildete die Präsentation von Markus Gerstmeier (Universität Passau) zum Thema „Lernorte an Schnittstellen von Geschichtsforschung, Archiv und Digitalisierung. Praxisnahe akademische Lehre anhand aktueller Kooperationsprojekte des Passauer Lehrstuhls für Digital Humanities“. Im Rahmen seiner Präsentation zeigte Gerstmeier die Potentiale auf, die gemeinsame Lehrveranstaltungen von Archiveinrichtungen und Digital History-Professuren für die Ausbildung der Studierenden haben können.
Der dritte Veranstaltungstag begann mit dem Vortrag von Roman Kuhn (Staatsbibliothek zu Berlin – Preußischer Kulturbesitz) zum Thema: „Stabi Lab. Partizipative und explorative Zugänge zu den Sammlungen der Staatsbibliothek zu Berlin“. Kuhn erweiterte die Perspektive auf das Bibliothekswesen. Er berichtete über die Erfahrung der Staatsbibliothek zu Berlin bei der Bereitstellung von ausgewählten Datensätzen sowie von darauf aufbauenden innovativen Anwendungen und Prototypen in einer experimentellen Lab-Umgebung. Den Abschluss der Summer School bildete eine Roundtable-Diskussion. Unter der Moderation von Kai Naumann (Landesarchiv Baden-Württemberg) diskutieren Irmgard Christa Becker (Archivschule Marburg), Torsten Hiltmann (Humboldt-Universität zu Berlin), Micky Lindlar (TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek) und Kristina Starkloff (Archiv der Max-Planck-Gesellschaft) über die Ergebnisse der Summer School und über die Möglichkeiten von GLAM-Einrichtungen und Forschung, die digitale Transformation der Geschichtswissenschaften und des Archivwesens gemeinsam zu gestalten.
Die nächste „Linking Data|Linking Communities“ 4Memory Summer School findet 2025 am Herder-Institut für historische Ostmitteleuropaforschung – Institut der Leibniz-Gemeinschaft in Marburg statt. Das Format bietet damit weiterhin eine wichtige Plattform für den Austausch und die Zusammenarbeit von Vertretern der verschiedenen Communitys und kann an wertvolle Impulse der Auftaktveranstaltung anknüpfen.
Transformation lebt von Austausch und Kollaboration. Gewohntes Terrain zu verlassen und neue Wege einzuschlagen erfordert Neugierde und Mut. Um dies zu erleichtern, hat der Arbeitsbereich Data Literacy des NFDI4Memory Konsortiums die digitale Veranstaltungsreihe „Von Büchern zu Bytes“ ins Leben gerufen. Sie soll eine Brücke von analog zu digital schlagen mit dem Ziel die Community bei der Bewältigung des Digital Turns zu unterstützen.
Seit Herbst 2023 werden einmal im Monat in einer 90-minütigen Session aktuelle Themen und relevante Anwendungsfelder in Forschung und Lehre mit Expert:innen, Forschenden und Lehrenden besprochen. Um möglichst vielen Personengruppen gerecht zu werden, sind die einzelnen Sessions äußert flexibel gestaltet. Nach einer 30-minütigen theoretischen Einführung in das jeweilige Thema oder Tool folgt ein ca. 60-minütiger Hands-On-Teil, bei dem je nach Belieben aktiv teilgenommen oder einfach nur zugeschaut werden kann.
Während in der ersten Session die grundlegende Bedeutung von Forschungsdatenmanagement in den historisch arbeitenden Disziplinen diskutiert wurde, befassten sich die weiteren Sessions mit gezielten Anwendungsbeispielen. Diese werden im Folgenden gebündelt aufgelistet:
Session 02: Forschungsdaten präsentieren – aber wie? Erfahrungsbericht und
Beratungsangebot
Session 03: Generationsgegensätze? Ein digitaler Blick über die Schulter zur Analyse
qualitativer Daten mit MAXQDA
Session 04: Die digitale Re-Edition gemeinfreier Bücher
Session 05: Analyse und Visualisierung von Netzwerken mit Gephi
Session 06: Data modelling and processing for historical Scholarship: How Research
Design and Methodolgy affect Data Management
Session 07: Zotero als Werkzeug zum persönlichen Forschungsdatenmanagement
Session 08: Nodegoat als Tool für die historisch arbeitenden Wissenschaften
Session 09: LEAF-Writer: Ein online-Editor zum Annotieren von XML-Dateien und
Einbinden von Normdaten
Alle Sessions wurden aufgezeichnet und über den NFDI4Memory YouTube-Channel sowie alle
Präsentationsunterlagen über Zenodo bereitgestellt.
Diese Vielfalt zog immer zwischen 40 und 60 Teilnehmende an, sodass auch der gezielte Austausch mit der Community gelang. In der letzten Session der ersten Staffel befragten wir die Teilnehmenden zu dem allgemeinen Ablauf und Aufbau der Veranstaltung sowie zu Themenwünschen für die zweite Staffel. Auf die Frage, was die Teilnehmenden am ehesten interessiert (30-minütiger Input oder 60-minütiger Hands-On-Teil), hat die Mehrheit der knapp 30 Teilnehmer:innen die Antwortoption „beides“ gewählt (siehe Abb. 1).
Abb.1: Abfrage zu inhaltlichen Ablauf und Aufbau einer Session
Anfänglich wurde lediglich der erste Teil der Session aufgenommen, um es im Hands-On-Teil den Teilnehmenden so angenehm wie möglich zu machen, „frei“ sprechen zu können. Schon während der weiteren Sessions ist uns jedoch aufgefallen, dass der Mehrwert der Aufzeichnung des Hands-On-Teils sehr hoch ist und das Interesse durch nachträgliche Mails zusätzlich bekundet wurde. Aus diesem Grund haben wir die Community gefragt, was aufgezeichnet werden sollte. Mehr als die Hälfte haben für die Option „beides“ gestimmt, mit dem Wunsch aktiv daran teilnehmen zu können. Durch einen Workaround ist es uns gelungen, die aktive Partizipation zu ermöglichen und gleichzeitig Anonymität zu gewährleisten.
In der Planung der zweiten Staffel war es möglich, den Wünschen der Community nachzukommen. Interesse wurde bei der Abfrage vor allem an Large Language Models bekundet. Ohne zu viel vorwegnehmen zu wollen – dieser Wunsch wird in Erfüllung gehen!
Die erste Session der zweiten Staffel findet am 25. Oktober 2024 statt und behandelt das Tool
FactGrid. Eine Anmeldung ist hier möglich. Das vollständige Programm wird in Kürze wie gehabt
über die offizielle NFDI4-Memory Webseite aufrufbar sein.
Somit bleibt hier nur noch ein großer Dank an alle Referent:innen und Teilnehmenden der ersten
Staffel auszusprechen! Wir freuen uns auf die 2. Staffel „Von Büchern zu Bytes“.
Autor:innen: Stefan Buedenbender, Laura Döring und Marina Lemaire