Kein Aprilscherz: Am Dienstag den 01.04. findet die letzte ‚Lunchbreak @ 4Memory Incubator Funds‘ statt.
Es werden sich die letzten beiden Projekte der insgesamt fünf dieses Jahr geförderten 4Memory Incubator Funds vorstellen:
"Transformation von Wissen aus domänenspezifischen Forschungs- datensammlungen in ontologiebasierte, frei verfügbare, normierte Vokabulare (Akronym: DomVoc)",
Bärbel Kröger & Christian Popp, Niedersächsische Akademie der Wissenschaften zu Göttingen
&
"VAMOD - Vormoderne Ambiguitaten modellieren. Anwendungsmöglich- keiten aus dem östlichen Europa",
Prof. Dr. Julia Herzberg, Leibniz- Institut für Geschichte und Kultur des östlichen Europa (GWZO)
Einen kleinen Vorgeschmack auf die Projekte bieten die kurzen Fragebögen:
Die Veranstaltung findet am Di, 01.04.2025 von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Nach der Lunchbreak ist vor der Lunchbreak, nächste Woche Dienstag, 25.03. geht es weiter mit den ‚Lunchbreaks @ 4Memory Incubator Funds‘.
In der Session stellen sich zwei weitere interessante Projekte vor:
"Embodied Interpretathon - Crowdbasierte Interpretation von mittelalterlichen Bewegungsbeschreibungen",
Dr. Eric Burkart, Germanisches Nationalmuseum Nürnberg
&
"Aufbau und Bereitstellung eines Benchmark-Datensatzes von historischen Tabellen (1750-1990)",
Prof. Dr. Werner Scheltjens, Professur für Digitale Geschichtswissenschaften, Otto-Friedrich-Universität Bamberg
Einen kleinen Vorgeschmack auf die Projekte bieten die kurzen Fragebögen:
Die Veranstaltung findet am Di, 25.03.2025 von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Die nächste 'Lunchbreak @ 4Memory Incubator Funds' findet am Di, 01.04.2025 (kein Aprilscherz!)statt, wenn die Projekte 'Transformation von Wissen aus domänenspezifischen Forschungs- datensammlungen in ontologiebasierte, frei verfügbare, normierte Vokabulare (Akronym: DomVoc)' und 'VAMOD - Vormoderne Ambiguitaten modellieren. Anwendungsmöglich- keiten aus dem östlichen Europa' sich vorstellen.
Nächste Woche starten wieder die ‚Lunchbreak @ 4Memory Incubator Funds‘.
In drei online Lunchbreaks stellen sich die fünf interessanten und vielversprechenden Projekte der in 2025 geförderten '4Memory Incubator Funds’ vor.
Den Auftakt macht am 18.03.2025 das Projekt "4Memory@School - Lehr-Lern-Labor: Digital History Data" von Prof. Dr. Sander Münster, FSU Jena, Juniorprofessur für Digital Humanities.
Zudem wird es im Vorfeld der Projektvorstellung ein kurzes allgemeines FAQ zu den Incubator Funds geben.
Einen kleinen Vorgeschmack auf das Projekt bietet der kurze Fragebogen:
Die Veranstaltung findet am Di, 18.03. von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Weite Informationen zu dem Projekt '4Memory@School - Lehr-Lern-Labor: Digital History Data' finden Sie hier.
Die nächste 'Lunchbreak @ 4Memory Incubator Funds' findet am Di, 25.03. statt, wenn die Projekte 'Emboided Interpretathon - Crowdbasierte Interpretation von mittelalterlichen Bewegungsbeschreibungen' und 'Aufbau und Bereitstellung eines Benchmark-Datensatzes von historischen Tabellen (1750-1990)' sich vorstellen.
Im Rahmen der „Incubator Funds“ 2024, die vom NFDI-Konsortium „4Memory“ der historisch arbeitenden Geisteswissenschaften ausgeschrieben werden, hat das Projekt „ASR4Memory“ einen KI-gestützten Transkriptionsservice für historische audiovisuelle Forschungsdaten aufgebaut, der u.a. in dem Forschungsfeld der Oral History zur Anwendung kommt.
Ausgangslage
In vielen Bibliotheken, Archiven, Universitäten, Museen und Gedenkstätten existieren bislang nicht erschlossene Sammlungen audiovisueller Quellen, die sich zum Beispiel aus Zeitzeugeninterviews, Fernsehmitschnitten, Radioübertragungen, Dokumentarfilmen, Aufzeichnungen politischer/wissenschaftlicher Vorträge, Mitschnitte von Gerichtsverfahren oder Feldinterviews zusammensetzen. In den Einrichtungen besteht ein großes Interesse, diese wertvollen audiovisuellen Ressourcen technisch aufzubereiten, wissenschaftlich zu analysieren, nach den FAIR-Standards zugänglich zu machen sowie bei neu entstehenden („Digital-Born“) Aufzeichnungen die Nachnutzbarkeit mitzudenken. Die Transkription der darin gesprochenen Sprache bildet dafür eine wichtige Voraussetzung. Mit der rasanten Weiterentwicklung der Künstlichen Intelligenz (KI) eröffnen sich vielfältige Möglichkeiten für die Transkription mit Hilfe automatischer Spracherkennung (Automatic Speech Recognition, ASR), die auch in wissenschaftlichen Kontexten wie der Oral History an Bedeutung gewinnen.
Die Nutzung von Open-Source-Spracherkennern bietet zwei wesentliche Vorteile: Zum einen reduziert sie in erheblichem Maße die Datenschutzproblematik, da die audiovisuellen Ressourcen nicht in kommerziellen Cloudumgebungen, sondern ausschließlich auf lokalen Servern der Freien Universität Berlin verarbeitet werden. Zum anderen lassen sich die Kosten, die im Falle umfangreicher Sammlungen für viele Einrichtungen nicht oder nur schwer finanzierbar sind, im Vergleich zu manuellen Transkriptionen und kommerziellen Transkriptionsdiensten deutlich verringern.
Das Angebot zur automatischen Transkription audiovisueller Forschungsdaten wurde sehr gut angenommen und hat gezeigt, dass in der Forschungscommunity ein großer Bedarf daran besteht. Nahezu 30 Einrichtungen stellten Forschungsdaten für eine Pilotnutzung in der Transkriptionspipeline bereit. Die Aufzeichnungen lagen in verschiedenen Sprachen vor, u.a. in Deutsch, Französisch, Portugiesisch, Spanisch, Englisch, Arabisch und Ukrainisch. Durch die Ausrichtung eines praxisorientierten Online-Workshops im März 2024 mit Inhaber*innen von audiovisuellen Datenbeständen und den direkten Austausch mit den Pilotnutzenden wurden die „Bedarfe, Anforderungen und kritische Bewertung des automatisierten Transkriptionsservices“ (Workshop-Titel) sowie die Ausgestaltung eines langfristigen Betriebsmodells beleuchtet. Berücksichtigt wurden technische und funktionale Anforderungen, Schnittstellenbedarfe, Metadatenmodelle, Nutzungsszenarien sowie rechtliche und ethische Aspekte. In diesem Zusammenhang diskutierten wir die Fragen von Diskriminierung sprachlicher Minderheiten und Rassismus sowie generell hinsichtlich der Intransparenz von KI-Methoden. Durch den kontinuierlichen Austausch mit den Pilotnutzenden wurden vielfältige Anwendungsszenarien mit individuellen Bedarfen und Herausforderungen identifiziert, die in die Entwicklungsarbeit einflossen. Im Gegenzug erhielten die Nutzenden qualitativ hochwertige Transkripte ihrer audiovisuellen Ressourcen für die Nachnutzung.
Projektresultate
Die Entwicklungsergebnisse sind seit Januar 2025 als Web-Service der Freien Universität Berlin oder als lokale Installation der Open-Source-Software für Interessierte nutzbar (siehe die Links am Ende des Beitrags). Die technische Grundlage der Transkriptionsstrecke bildet „WhisperX“, eine an der Universität Oxford entwickelte Open-Source-basierte Re-Implementierung des Spracherkenners „Whisper“ der Firma OpenAI, die auch das bekannte Large Language Modell „ChatGPT“ entwickelt hat. „WhisperX“ hat sich in der internen Evaluation als der für die identifizierten Bedarfe geeignetste automatisierte Spracherkenner (ASR) herausgestellt und wurde zur Weiterentwicklung in diesem Projekt ausgewählt. Die auf Grundlage der Programmiersprache „Python“ entwickelte Pipeline, die aus ineinandergreifenden Pre- und Postprocessing-Komponenten aufgebaut ist, ermöglicht eine hohe Transkriptqualität bei einer gleichzeitig hohen Zeiteffizienz in der Datenverarbeitung. Zudem werden Datenschutz und -interoperabilität sichergestellt.
Für den Datenaustausch wurde eine browserbasierte Weboberfläche (Media Management Tool – MMT) entwickelt, über die die Sammlungsinhaber*innen ihre audiovisuellen Ressourcen auf die an der Freien Universität Berlin betriebenen Transkriptionsplattform laden, in der die Daten sicher und datenschutzkonform ausschließlich auf lokalen Servern verarbeitet werden.
In einem ersten Schritt wird die Integrität des audiovisuellen Digitalisats automatisch geprüft. Um eine höchstmögliche Transkriptionsqualität zu gewährleisten, wird die Tonspur aus der Mediendatei in einem für die automatische Transkription passenden Audioformat extrahiert und das darin enthaltene Sprachsignal für die nachfolgende Spracherkennung automatisch tontechnisch optimiert (Anpassung der Lautstärke, Hervorhebung der Sprachfrequenzen). Danach folgt die Transkription in der Originalsprache (aktuell sind 30 Sprachen möglich) mit passgenauen Einstellungen, woraus schließlich die Transkriptformate erzeugt und im letzten Schritt den Nutzer*innen online über eine sichere Datenübertragung bereitgestellt werden.
Abbildung 1: Schematischer Workflow der Transkriptionspipeline mit den einzelnen Arbeitsschritten.
Um die vielfältigen Bedürfnisse der Nutzenden abzudecken, werden verschiedene Transkriptformate generiert, darunter TXT- und ODS-Dateien zur manuellen Nachbearbeitung in Textverarbeitungsprogrammen, CSV- und JSON-Dateien zur automatischen Datenverarbeitung in weiteren Systemen (z.B. Repositorien), VTT- und SRT-Dateien zur Untertitelung von AV-Medien in Software-Playern sowie PDF-Dateien zur Bereitstellung und Langzeitsicherung der Transkripte. Zum Teil enthalten die Exportdateien Sprecher*innenauszeichnungen sowie wort- oder satzbasierte Zeitmarken (Timecodes). Auch eignen sich die Formate für den Import in die Erschließungs- und Recherche-Plattform „Oral-History.Digital“, wofür aktuell Schnittstellen zum 4Memory Data Space entwickelt werden. So können Transkripte mit entsprechenden Nutzungsrechten der 4Memory-Community zugänglich gemacht werden.
Abbildung 2: Beispiel des Untertitelformats VTT mit satzbasierten Zeitmarken und englischer Transkription.
Die exakte Zeitkodierung der Transkripte mit millisekundengenauen Zeitmarken (für jeden Satz und jedes Wort) ermöglicht ihre Synchronisierung mit den audiovisuellen Medien und führt somit zu einer verbesserten Auffindbarkeit, Zugänglichkeit, Interoperabilität und Nachnutzbarkeit (FAIR) der audiovisuellen Ressourcen in digitalen Anwendungen. Schließlich eröffnen sich durch die Verschriftung der Ton- und Filmaufnahmen plattformübergreifende Analyse-, Kontextualisierungs- und Metadatenoptionen, u.a. im Bereich der Textanalyse und des Natural Language Processings.
Abbildung 3: Beispiel der CSV-Ausgabedatei mit wortbasierten Timestamps und deutscher Transkription.
Neben dem Service-Angebot an der Freien Universität Berlin ist der Quellcode open source in öffentlichen GitHub-Repositorien veröffentlicht. Somit können die Nutzenden selbständig und dezentral die Pipeline auf lokalen Maschinen aufsetzen, datenschutzkonform betreiben, den Quellcode eigenständig weiterentwickeln und in der Forschungscommunity weiter verteilen.
Schwachstellen der Spracherkennung
Auch wenn die neue Generation der KI-basierten Spracherkenner eine deutlich höhere Qualität bei der automatischen Transkription audiovisueller Daten ermöglicht, weisen auch diese Schwächen auf. Der schwerwiegendste (wenn auch eher seltene) Fehler ist die sog. Halluzination, bei der nicht gesprochene Inhalte, die ursprünglich aus den KI-Trainingsdaten stammen, fälschlicherweise generiert (sprich erfunden) werden und keinerlei inhaltlichen Bezug zum Gesprochenen haben. Ein weiteres Defizit besteht in der Falscherkennung von wichtigen Entitäten wie Personennamen, Organisationen, Orten oder Ereignissen.
Nachfolgend ein Beispiel:
Gesprochener Text: „Ja, das war Sommer 89, wo die dann alle da in Prag, da in der Botschaft gesessen haben und der Genscher hat sie dann da rausgekloppt.“
Erkannter Text: „Ja, das war Sommer 89, wo die dann alle da in Prag da in der Botschaft gesessen haben und der Kenja hat sie dann da rausgeklappt.“
Zudem haben die ASR-Tools zum Teil Probleme damit, einen gesprochenen Satz dem/der jeweiligen Sprecher*in korrekt zuzuordnen, was besonders bei schnellen Sprecherwechseln, parallelem Sprechen und im Falle vieler Sprecher*innen auftritt.
Des Weiteren „glätten“ die Spracherkenner das Transkript, in dem Füllwörter, Wortwiederholungen, Satzabbrüche und Verzögerungen oft nicht transkribiert werden. Beispiele:
Gesprochener Text: „Wir wohnten damals in Berlin-Köpenick. In_ in_. Äh, ähm, na, eine Hütte war es ja eigentlich gewesen.“
Erkannter Text: „Wir wohnten damals in Berlin-Köpenick. In einer Hütte war es ja eigentlich.“
Zudem werden nicht-sprachliche Lautäußerungen (wie Lachen oder Weinen), Sprechpausen und direkte Rede nicht transkribiert:
Gesprochener Text: „Ich sage: ‚Weißt du was, jetzt fahre ich mal schnell rüber, hole uns ein paar Zigaretten.‘ <s(lachend) Fahre die Schönhauser runter, bieg in die Brunnenstraße ein,> da standen sie, einer nebeneinander.“
Erkannter Text: „Ich sage, weißt du was, jetzt fahre ich mal schnell rüber, hol uns ein paar Zigaretten. Ich fahre da schön runter und da kriege ich eine Brunnenstraße hin. Da standen sie jeder nebeneinander.“
Die Spracherkenner führen grammatikalische Korrekturen, insbesondere beim Satzbau, durch. Zudem werden Dialekte und Akzente ins Hochdeutsche transformiert:
Die KI-basierte Spracherkennung weist einige Schwächen auf, erzeugt Transkriptionsfehler und ermöglicht keine rein wortgetreue Transkription. Daher wurde im Projekt geprüft, ob über das Feintuning des Spracherkennungsmodells mit domänenspezifischen Trainingsdaten die Transkriptqualität erhöht werden kann. Dafür ausgewählt wurden bereits optimal transkribierte Oral-History-Interviews mit hoher Audioqualität. Da die für das Training erforderliche Aufbereitung ein sehr zeitaufwändiger Arbeitsschritt ist, wurden im Projekt effiziente Workflows entwickelt, in denen mehrere KI-unterstützte Komponenten die technischen Aufgaben übernehmen. Zur Aufbereitung gehören, erstens, die Klärung der rechtlichen Bedingungen für die Nutzung der Forschungsdaten im KI-Training. Zweitens wird ein technisch komplexes Preprocessing durchgeführt, das die textuellen und audiovisuellen Daten in einzelne Segmente aufsplittet (insgesamt etwa 190.000) und in das für Deep-Learning optimierte HDF5-Format konvertiert. Drittens stellt die textuelle und akustische Anonymisierung der Zeitzeugeninterviews sicher, dass die in der Aufzeichnung genannten sensiblen Informationen sowohl aus dem Transkript als auch aus der Tonspur automatisiert entfernt werden. Mithilfe einer LLM-gestützten Named Entity Recognition (NER) werden die zu anonymisierenden Entitäten wie Namen und Adressen erkannt, die wiederum in der Tonspur mit dem FFmpeg-Tool millisekundengenau unkenntlich gemacht werden. Der Anonymisierungsvorgang erfolgt zum einen aufgrund rechtlicher Vorgaben des High-Performance Computers sowie aus ethischen Gründen mit Blick auf die Zeitzeugen und ihre aufgezeichneten Erfahrungsberichte. Zudem verhindert die Anonymisierung der Trainingsdaten unerwünschte Halluzinationen von sensiblen Informationen aus den Trainingsdaten, die in der Anwendung des trainierten Modells bei anderen audiovisuellen Ressourcen auftreten könnten.
Feintuning der Spracherkenner
Im Rahmen eines Proof-of-Concepts konnten wir nachweisen, dass sich über ein Deep-Learning-basiertes Finetuning des Spracherkennungsalgorithmus auf dem High-Performance Computer der Freien Universität Berlin eine signifikante Verbesserung der Transkriptqualität erzielen lässt. Das Feintuning wird maßgeblich von den Hyperparametern beeinflusst, welche vorab festgelegt werden und den Lernprozess des ASR-Modells steuern. Um einen möglichst hohen Trainingseffekt zu erzielen, werden aus einer Vielzahl möglicher Hyperparameter die wirkungsstärksten Parameter mit entsprechenden Einstellungen identifiziert (z.B. Learning Rate, Anzahl der Trainingsepochen). Für die Optimierung der Hyperparameter setzen wir bayessche Statistikmethoden und die Bibliothek „Ray Tune“ ein, um verschiedene Kombinationen von Hyperparametern parallel und in iterativen Durchläufen (Epochen) über die Trainingsdaten zu prüfen und die besten Trainingsmodelle auszuwählen.
Abbildung 4: Schematische Darstellung der Hyperparameter-Optimierung, die verschiedene Hyperparameter-Kombinationen (farbige Linien) testet und schrittweise (je „Epoche“) die schlechteren Modelle mit höheren Fehlerwerten verwirft, sodass nur die besten bis zum optimalen Ergebnis weitertrainiert werden (in diesem Beispiel das Modell A).
Durch das Hyperparameter-Finetuning konnte die Spracherkennung systematisch verbessert und eine höhere Transkriptqualität erreicht werden. In der Auswertung des feingetunten Modells zeigte sich, dass durch das domänenspezifische Training zum einen die quantitative Wortfehlerrate signifikant reduziert wurde (für das kleinste Modell um etwa 10 Prozent). Zum anderen wurden auch historische Begriffe und Eigennamen deutlich besser erkannt und somit qualitative Verbesserungen des Spracherkenners erzielt (etwa 15 Prozent). Jedoch konnten wir den Machbarkeitsnachweis aufgrund der begrenzten Rechenkapazitäten nur bei den kleineren Sprachmodellen durchführen. So beanspruchten die Trainingsprozesse auf dem High-Performance Computer viel Zeit und erzeugten große Datenmengen. Dennoch lässt sich aus den Ergebnissen folgern, dass – sofern ausreichende Rechenkapazitäten und fachlich kuratierte Trainingsdaten vorliegen – die Entwicklung domänenspezifischer Spracherkennungsmodelle machbar ist. Indem sie schwerwiegende Fehler reduzieren (insbesondere bei Personennamen, Orten und Ereignissen), erzielen sie eine signifikant höhere Transkriptgenauigkeit und schaffen so einen erheblichen Mehrwert für die jeweilige Fachdisziplin.
Evaluation der Transkription
Bislang wird zur Bewertung von Spracherkennern meist die Wortfehlerrate herangezogen, die eine wichtige quantitative und vergleichbare Metrik darstellt. Die Wortfehlerrate ist allerdings nur bedingt aussagekräftig: Die fehlerhafte Transkription von wichtigen historischen Begriffen und Eigennamen ist deutlich problematischer als die Transkription eines falschen Artikels oder Füllworts. Jedoch bewertet die Wortfehlerrate beide Fehlerarten gleich. Um die diese Defizite systematisch zu analysieren (und künftig zu reduzieren), wurde ein Evaluationsverfahren mit der Zielsetzung entwickelt, die quantitativen Evaluationsergebnisse über eine qualitative Bewertung der Transkriptionsgüte zu ergänzen.
Zentraler Baustein in diesem Verfahren ist ein lokal betriebenes, offlinefähiges und Open-Source-basiertes Large Language Modell (LLM), das mit 70 Milliarden Parametern komplexe Aufgabenstellungen bewältigt, allerdings große Rechenressourcen bei der Anwendung benötigt. Zunächst definierten wir trennscharfe Fehlerkategorien und gewichteten diese nach ihrer Relevanz für die Transkriptqualität (unter Einbezug der bisher mit den automatischen Transkripten arbeitenden Historiker*innen an der FU Berlin). Das LLM kategorisiert (auf Grundlage eines spezifischen Prompts) die auftretenden Fehler und berechnet die Fehlerverteilung im erzeugten Transkript. Die erzeugte Auswertung zeigt die Häufigkeit der auftretenden Fehlertypen auf und gibt Rückschluss darüber, wie schwerwiegend die Fehler für die Transkriptqualität sind. Dieser gemischte Ansatz hat sich als sehr hilfreich in der Bewertung KI-unterstützter Spracherkenner erwiesen.
Die folgenden Diagramme zeigen die einzelnen Fehlerkategorien und die Fehlerhäufigkeiten des originalen sowie des feingetunten Modells. Zum Beispiel repräsentiert „d2“ das „Entfernen eines bedeutungsvollen Wortes mit inhaltlicher Relevanz“ oder „i2“ das „Einfügen eines halluzinierten bedeutungsvollen Wortes“. Die „weights“ definieren die Gewichtung des Fehlertyps hins. der Transkriptqualität. Je höher der Wert, desto größer die Relevanz für die Transkriptqualität.
Abbildung 5: Vergleich der (gewichteten) Fehlerhäufigkeiten zwischen dem Original-Modell (blau) und feingetunten Modell (orange).
Abbildung 6: Darstellung der Fehlerreduktion zwischen dem Original-Modell (links) und dem feingetunten Modell (rechts).
Nächste Schritte
Aktuell arbeiten wir daran, ein domänenspezifisches Spracherkennungsmodell für die historisch arbeitenden Geisteswissenschaften zu entwickeln. Dabei verfolgen wir das Ziel, dass in deutschsprachigen Aufzeichnungen historische Begriffe und Zusammenhänge wie Orte, Ereignisse und Eigennamen mit noch höherer Wahrscheinlichkeit korrekt erkannt und die für KI-Anwendungen charakteristischen Halluzinationen verringert werden. Zudem sollen sowohl non-verbale Kommunikationsereignisse und Sprechpausen millisekundengenau erfasst als auch die multilinguale Transkription von mehrsprachigen Quellen ermöglicht werden. Die Zielstellung ist, dieses optimierte und domänenspezifische Modell als open source der Fachcommunity zur Nutzung in Forschungskontexten zur Verfügung zu stellen.
Zum anderen haben wir den Bedarf identifiziert, das Spracherkennungsmodell mit selteneren Sprachen (z.B. Aramäisch, Quechua) zu trainieren und somit deren automatische Transkription zu ermöglichen. Diese angepassten Modelle könnten in unsere Transkriptionspipeline integriert und somit den entsprechenden Communities zugänglich gemacht werden.
Für die Anbindung an weitere Plattformen und Repositorien sollen zusätzliche wissenschaftliche Exportformate über die Transkriptionspipeline zukünftig angeboten werden, so die Austauschformate TEI-XML und/oder IIIF-AV.
Das Projekt wird durchgeführt von Dr. Tobias Kilgus, Peter Kompiel, Marc Altmann und Dr. Christian Horvat.
2. NFDI4Memory Community Forum | 18.09.2024 | Halle (Saale)
13:40-15:10 Programm Slot 2 - Session 1:
„NFDInspector – Entwicklung eines Python Packages für die Qualitätsprüfung von Erschließungsdaten aus Museen und Archiven“
Mit Förderung durch den 4Memory Incubator Funds werden im Montanhistorischen Dokumentationszentrum (montan.dok) des Deutschen Bergbau-Museums Bochum im Projekt „Datenqualität in Archiven und Museen. Entwicklung von Analyse-Tools als Python Package“ derzeit Tools entwickelt, mit denen formale Qualitätsmängel in standardisiert vorliegenden Datensammlungen identifiziert und Fehlerreports generiert werden können. Die Tools werden Ende 2024 Open Source und unter einer freien Lizenz als Package im „Python Package Index“ (PyPI) veröffentlicht, so dass sie nachgenutzt werden und die Basis für weitere Applikationen bilden können (siehe https://4memory.de/4memory-incubator-funds-projekte-2024).
Der Workshop stellt zunächst Ziele und Stand des Projektes sowie dann ausführlicher die Tools selbst, deren Bedienung und die bereits implementierten Funktionalitäten vor und zur Diskussion. Ziel ist eine kritische Evaluierung der bis dahin erreichten Ergebnisse und Anregungen aus der Community für die Weiterentwicklung der Tools. Welche weiteren Funktionalitäten und qualitätsbezogenen Überprüfungen sollten ggf. noch berücksichtigt werden? Eine weitere Frage ist, wie die gemeinsame Pflege und Weiterentwicklung der Tools über das Projektende hinaus erreicht werden kann. In welchen Kontexten, Prozessen oder anderen Tools könnte das Python-Package perspektivisch zur Anwendung kommen?Hierfür will der Workshop zur weiteren Netzwerkbildung in der Community beitragen und idealerweise erste Ansätze diskutieren.
Der Workshop richtet sich vorrangig an Personen, die sich in ihren Einrichtungen und Projekten unmittelbar mit Fragen der Datenqualität von sammlungsbezogenen Forschungsdaten auseinandersetzen, z. B. als Data Curators, Data Stewards, Information Specialists etc., und die bestenfalls Basiskenntnisse in der Programmiersprache Python und/oder den Austauschformaten LIDO und EAD haben.F
Nächste Woche startet die letzte 'Lunch Break @ 4Memory Incubator Funds' in der sich nochmal zwei spannende geförderte Projekte vorstellen:
Am 19.03.2024 werden die Projekte: 'Paredros – Eine Grammatikentwicklungsumgebung für Historiker:innen' von Prof. Dr. Clemens Beckstein, Professor für Künstliche Intelligenz an der Universität Jena und Apl. Dr. Robert Gramsch-Stehfest, Professur für Mittelalterliche Geschichte an der Universität sowie 'Workshop-Reihe: Historische Arbeitstechniken, Aufbau Forschungsdatenbasis und Netzwerk zum Wissenstransfer' von Dr. Lisa Maubach (LVR-Institut für Landeskunde u. Regionalgeschichte); Ellen Bömler und Konrad Gutkowski (LWL-Museen für Industriekultur) vorgestellt.
Einen kleinen Vorgeschmack auf die beiden Projekte bieten die kurze Fragebögen:
Die Veranstaltung findet am Di, 19.03. von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Weite Informationen zu dem Projekt 'Paredros – Eine Grammatikentwicklungsumgebung für Historiker:innen' finden sie hier und zum Projekt 'Workshop-Reihe: Historische Arbeitstechniken, Aufbau Forschungsdatenbasis und Netzwerk zum Wissenstransfer' hier.
Auch nächste Woche stellen sich wieder zwei der insgesamt sieben geförderten 4Memory Incubator Funds Projekte bei 'Lunch Break @ 4Memory Incubator Funds' vor:
Am 12.03.2024 werden die Projekte: 'ASR4Memory. Ein KI-gestützter Transkriptionsservice für historische audiovisuelle Forschungsdaten' von Dr. Tobias Kilgus und Peter Kompiel der Freien Universität Berlin, Universitätsbibliothek sowie 'Hands-on Normdaten! Use Case zur communityorientierten, ressourceneffizienten und kreativen Implementierung der Gemeinsamen Normdatei (GND) in den Erschließungsworkflow einer staatlichen Archivverwaltung am Beispiel Bayerns' unter der Leitung von Dr. des Johannes Haslauer der Staatl. Archive Bayerns/StA Bamberg vorgestellt.
Einen kleinen Vorgeschmack auf die beiden Projekte bieten die kurze Fragebögen:
Die Veranstaltung findet am Di, 12.03. von 12:30-13:30 Uhr über BigBlueButton statt: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht notwenig.
Weitere Informationen zu den Incubator Funds finden Sie hier.
Weite Informationen zu dem Projekt 'ASR4Memory. Ein KI-gestützter Transkriptionsservice für historische audiovisuelle Forschungsdaten' finden sie hier und zum Projekt 'Hands-on Normdaten! Use Case zur communityorientierten, ressourceneffizienten und kreativen Implementierung der Gemeinsamen Normdatei (GND) in den Erschließungsworkflow einer staatlichen Archivverwaltung am Beispiel Bayerns' hier.
Die letzte 'Lunch Break @ 4Memory Incubator Funds' findet am Di, 19.03. statt, wenn die folgende Projekte sich vorstellen:
Projekt: 'Paredros – Eine Grammatikentwicklungsumgebung für Historiker:innen' von Prof. Dr. Clemens Beckstein, Professor für Künstliche Intelligenz an der Universität Jena und Apl. Dr. Robert Gramsch-Stehfest, Professur für Mittelalterliche Geschichte an der Universität
Projekt: 'Workshop-Reihe: Historische Arbeitstechniken, Aufbau Forschungsdatenbasis und Netzwerk zum Wissenstransfer' von Dr. Lisa Maubach (LVR-Institut für Landeskunde u. Regionalgeschichte); Ellen Bömler und Konrad Gutkowski (LWL-Museen für Industriekultur)
NFDI4Memory feiert dieser Tage einjähriges Bestehen – Anlass genug, um gemeinsam auf einige Highlights des ersten Projektjahres zu blicken.
Ein besonderer Höhepunkt war das erste NFDI4Memory Community Forum am 20.11. mit über 150 Teilnehmenden. Das digital abgehaltene Community Forum ermöglichte den Austausch mit der Community in sieben thematischen Breakout Sessions. Übrigens: Auch in diesem Jahr lädt 4Memory zum Community Forum ein. Wir freuen uns, euch am 18.09. im Vorfeld zur Tagung ‚Digital History & Citizen Science‘ in Halle (Salle) begrüßen zu dürfen.
Der direkte und persönliche Austausch mit der NFDI4Memory Community war unter anderem auf Tagungen und Konferenzen möglich, bei denen NFDI4Memory mit einem Infostand vertreten war, wie beispielsweise bei der CoRDI in Karlsruhe, dem 54. Historikertag in Leipzig sowie gemeinsam mit der Memorandum of Understanding (MoU)-Gruppe auf der DHd2024 in Passau. Die MoU-Gruppe setzt sich aus den vier geistes- und kulturwissenchaftlichen Konsortien der NFDI zusammen: NFDI4Culture, NFDI4Objects, Text+ und NFDI4Memory.
Beim Historikertag und auf der CoRDI war das Konsortium auch durch viele inhaltliche Vorträge und Workshops vertreten. Auf dem 54. Historikertag zum Beispiel leitete Torsten Hiltmann von der Task Area Data Culture eine eindrucksvolle Sektion zur ‚Geschichte aus der Maschine. Potenziale, Herausforderungen und Gefahren der „Künstlichen Intelligenz“ für unser Fach‘, nachzusehen bei L.I.S.A..
Neben der MoU-Gruppe bietet die Mitarbeit in NFDI-Sektionen die Möglichkeit zum Austausch und zur Zusammenarbeit mit anderen NFDI-Konsortien. So wirkte NFDI4Memory über die Sektion ‚ELSA‘ an der Stellungnahme zum Forschungdatengesetz mit. Ein weiteres Highlight unseres ersten Projektjahres war ein ausführliches Interview bei L.I.S.A., in dem Dr. Marie von Lüneburg, apl. Prof. Dr. John C. Wood und Dr. Cord Pagenstecher unser Konsortium mit seinen Zielen und Aufgaben vorstellen konnten.
Zentrales Anliegen unseres Konsortiums ist es, unsere Dienste und Angebote aus den Bedarfen der Community abzuleiten. Hierzu wurde untere anderem eine Umfrage sowie eine Interviewreihe zu den im Bereich von Data Quality bestehenden Bedarfen erhoben.
Ebenfalls an die Bedarfe der Community knüpfen die 4Memory Incubator Funds an. Diese fördern innovative und experimentelle Projektideen aus der Community. 2024 werden sieben Projekte gefördert, die aktuell bei ‚Lunch Break @ 4Memory Incubator Funds‘ vorgestellt werden.
Eine weitere Online-Veranstaltungsreihe sind die monatlich stattfindenden ‚From Books to Bytes‘, bei denen Expert:innen aus dem Bereich Forschungsdatenmanagement in Vorträgen und Workshops aktuelle Themen und relevante Anwendungsfelder in Forschung und Lehre vorstellen.
Und nun noch ein Highlight für Euch – unsere Community: Als Geschenk zu unserem einjährigem Bestehen ermöglicht NFDI4Memory mit der Ausschreibung der 4Memory FAIR Data Fellowships, die Unterstützung bei der Bearbeitung von erhobenen Datensets zur historischen Forschung.Die Bewerbungen ist bis 02.04.2024 möglich.
Wir freuen uns auf unser zweites Projektjahr gemeinsam mit der NFDI4Memory Community und vielen weiteren Highlights!
Wir laden ein zu 'Lunch Break @ 4Memory Incubator Funds'!
Letztes Jahr wurden erstmalig die '4Memory Incubator Funds' ausgeschrieben: Für 2024 kann NFDI4Memory sieben interessante und vielversprechende Projekte fördern.
Diese werden digital bei ‚Lunch Break @ 4Memory Incubator Funds‘ vorgestellt, jeweils eine Woche vor der Vorstellung veröffentlichen wir hier einen Steckbrief zum jeweiligen Projekt. Neben der Vorstellung wird es auch die Möglichkeit geben Fragen zu den einzelnen Projekten zu stellen.
Die Teilnahme zu ‚Lunch Break @ 4Memory Incubator Funds‘ erfolgt online über BigBlueButton: https://bbb.rlp.net/rooms/ttu-ktp-njp-kmb/join, die Vorstellungen starten pünktlich.
Eine Voranmeldung ist nicht nötig.
Di, 27.02. 12:00-13:00:
FAQ '4Memory Incubator Funds', 4Memory Coordination Office
Projekt: 'Geodaten als Sozialdaten für die historische Längsschnittanalyse? Ein experimentelles Projekt zum Einsatz von Drohnen und Deep Mapping in der Zeitgeschichte', Dr. Rita Gudermann & Prof. Dr. Kerstin Brückweh, Leibniz-Institut für Raumbezogene Sozialforschung (IRS) e.V.
Di, 05.03. 12:30-13:30:
Projekt: 'Datenqualität in Archiven und Museen. Entwicklung von Analyse-Tools als Python Package'
Projekt: 'Maschinelles Sehen und Distant Reading auf Archivbestände für neue methodische Standards in der Provenienzforschung'
Di, 12.03. 12:30-13:30:
Projekt: 'ASR4Memory. Ein KI-gestützter Transkriptionsservice für historische audiovisuelle Forschungsdaten'
Projekt: 'Hands-on Normdaten! Use Case zur communityorientierten, ressourceneffizienten und kreativen Implementierung der Gemeinsamen Normdatei (GND) in den Erschließungsworkflow einer staatlichen Archivverwaltung am Beispiel Bayerns'
Di, 19.03. 12:30-13:30:
Projekt: 'Paredros – Eine Grammatikentwicklungsumgebung für Historiker:innen'
Projekt: 'Workshop-Reihe: Historische Arbeitstechniken, Aufbau Forschungsdatenbasis und Netzwerk zum Wissenstransfer'