FAIR Data Fellowbericht - Lena Filzen

für alle Task Areas, Data Quality

Lena Filzen berichtet über ihre Erfahrungen mit der Aufbereitung und Veröffentlichung von Forschungsdaten aus ihrem Projekt zur historischen Embryonenbetrachtung im Rahmen des NFDI4Memory FAIR Data Fellowships.

“Quo simplicus eo perfecticus“- von der Quelle zur DOI 

 Ein Erfahrungsbericht am Beispiel von historischer Embryonenbetrachtung 

 

Bei meiner Forschung an den Sitzungsprotokollen einer kleinen wissenschaftlichen Gesellschaft aus dem 18. Jahrhundert in Frankfurt am Main wurde mir schnell bewusst, dass eine sorgfältige Aufzeichnung meiner Transkriptionen und Notizen notwendig ist, um später das Zusammentragen und -schreiben meiner Ergebnisse zu bewerkstelligen. 

Während Johann Friedrich von Uffenbach gewissenhaft die freitagabendlich stattfindenden Sitzungen, in seinen sogenannten „nützlichen NebenStunden“ zur „vernüftigen GemüthsErgötzung“ in sechs Bänden festhielt, versuchte ich Teiltranskriptionen, Zeichnungen, Eingeklebtes und Buchtitel sowie Diskussions- und Schreibpraxis wiederfindbar zu verschlagworten und global durchsuchbar zu organisieren. Folglich versuchte ich dem Denkspruch der Gesellschaft “Quo simplicus eo perfecticus“ zu folgen, frei nach dem Motto „je einfacher desto besser“.

An einem meiner eigenen Freitagabende wurde mir von einem Kollegen das NFDI4Memory FAIR Data Fellowship empfohlen. Ein ein-monatiges Stipendium, welches das Ziel hat, die „historischen Forschungsdaten mit Beratung von Expert:innen im Forschungsdatenmanagement zur Publikation“ aufzuarbeiten. Da ich noch in einer frühen Arbeits- und Erschließungsphase stand, war es für mich eine passende Möglichkeit, einen Einblick in das digitale Datenmanagement zu erhalten. Für die Projektdauer wurde ich vom Team des Forschungsinstituts für Technik- und Wissenschaftsgeschichte des Deutschen Museums in München betreut, da sich die Frankfurter Gesellschaft der „Untersuchung von Natur und Kunst“ verschrieben hatte und somit als wissenschaftliche Gesellschaft gewertet werden kann. 

In diesem Blogbeitrag möchte ich daher meine Erfahrungen der ersten Berührungen mit digitalen Repositorien wiedergeben und für alle Neueinsteiger – wie ich es war – die grundlegenden Begrifflichkeiten und Vorgehensweise erklären. 

 

Ausgehend von der Quelle…

Die fünf erhaltenen, in grünes Leder gebundenen Bände der Gesellschaft und ihrer „angestelten Untersuchungen zur Natur und Kunst“ umfassen handschriftlichen Protokolle auf ca. 2.600 Seiten und enthalten außerdem mehrere kleinere Zeichnungen, Abklatsche, eingeklebte Abbildungen und kurze Texte sowie technische Zeichnungen von Bauten und Wasserwerken. Die Bände wurden bereits 1769 zusammen mit den ante mortem gespendeten Büchern des Schriftführers und Gründungsmitglieds Johann Friedrich von Uffenbach an die junge Georg-August-Universität in Göttingen übergeben. Dort wurden sie von der Staats- und Universitätsbibliothek (SUB) von 2021 bis 2024 digitalisiert und sind frei einsehbar.
Die Bände sind bisher kaum erschlossen. Uffenbach legte eigene Indexe in den jeweiligen Einzelbänden an und die Sitzungstermine sowie anwesende Gäste wurden von Dietrich Meyerhöfer in seiner Dissertation 2019 tabellarisch aufbereitet. Darüber hinaus gibt es keine weitere Orientierungshilfe. 

[Bild 1: Index] Index des ersten Bandes mit alphabetisch sortierten Lemmata

Vor der eigentlichen geschichtswissenschaftlichen Auswertung stehen nun zwei Aufgaben: Erstens, die Erfassung des Textinhalts, die mit der Entschlüsselung der Handschriften einhergeht. Hierbei wird auch festgehalten, welche Themen diskutiert, welche Experimente mit welchen Instrumenten durchgeführt und auf welche Personen oder Veröffentlichungen hingewiesen wurden. Zweitens, soll die Praxis des Protokollierens analysiert werden. Als Meta-Inhalt wird daher beobachtet, wie die Durchführungen der Experimente beschrieben und wie Gespräche wiedergegeben wurden. Besonders aufmerksam soll verfolgt werden, wann die eigene Meinung des Schriftführers einfloss, welche Argumentationsstrukturen zur Wissensgenerierung auffällig sind und wie die Abbildungen im Zusammenhang mit dem Text stehen. Erst nach der inhaltlichen Erschließung und der praxeologischen Auswertung über viele Sitzungen hinweg kann ein Muster, also eine Praktik, erkennbar werden.  

 

… über deren erste Bearbeitung

Bei den digitalen Treffen mit dem Team des Deutschen Museums in München, besprachen wir daher einerseits, wie die gesammelten Informationen am besten zu notieren und sortieren seien, um langfristig eine Wiederfindbarkeit und Verwendbarkeit zu garantieren, und andererseits, welches Ablagesystem oder Softwareprogramm sich für diese Aufgabe am besten eigenen würde. 

Meine bisherigen Aufzeichnungen waren zweigeteilt: Zum einen gab es Aufzeichnungen der einzelnen Sitzungsprotokolle. Diese enthielten Teiltranskriptionen aussagekräftiger Passagen, Beschreibungen der Abbildungen, Kerndaten wie Gastgeber und Gäste sowie den von der Gesellschaft verfassten Index. Hinzukamen in der Forschung bisher unbekannte personenbezogene Informationen – beispielsweise, dass Wilhelm von Uffenbach in Straßburg die Drechselkunst erlernte (Band I, S. 25 f.) – sowie Anmerkungen zur Argumentationsstruktur, wie Literatur verwendet wurde, welche Person in welcher Art Beiträge leisteten und eine eigene Verschlagwortung der Themen und gefundenen Rede- und Protokollierpraktiken. 

Zudem hatte ich bereits eine Übersicht, über die einzelnen Sitzungen, mit Inhaltsverzeichnis, besonderer Merkmale und besprochener Themen erstellt. Hier wurde auch die Verschlagwortung zur Unterscheidung der verschiedenen Beiträge und behandelten Themen eingeführt – beispielsweise wurde zwischen dem einfachen Gespräch, einer Diskussion mit Argumentationsstrukturen zur Wissensgenerierung oder -festigung und Trasch und Klatsch unterschieden. 

Um eine Schlagwortsuche möglichst gut nutzen zu können, ist es wichtig die Begriffe einheitlich zu verwenden. Beim Aufbau einer eigenen Datenbank sollte man zudem beachten, dass die verwendeten Schlagworte einerseits möglichst genau die jeweils behandelten Themen wiedergeben und andererseits für einen Nachnutzenden verständlich sind und einheitlich bleiben. Außerdem stellte sich bei der Verschlagwortung die Frage, wie kleinteilig meine Beschreibung von Experimenten sein sollte und welches Wort für die Umschreibung einzelner Praktiken sinnvoll sei. Gerade in Bezug auf Experimente gibt es die Möglichkeit, die Quellensprache beizubehalten oder diese in der modernen Fachsprache auszudrücken. 

[Bild 2: Notion] Wikifunktion von Notion

In Bezug auf die Wahl des Programms gibt es verschiedene Faktoren zu beachten. Zunächst sollte die Exportierbarkeit und Integrierbarkeit in andere Programme und gegebenenfalls bestehende Datenbanken garantiert sein. Dies geschieht in der Regel durch das gängige CSV-Dateiformat (comma-separated values), welches auch Excel nutzt. Zurzeit nutze ich noch das kostenlose Programm Notion. Dieses hat die Vorteile, dass in der Detailseite jeder bearbeiteten Sitzung nicht nur Text, sondern auch Bildmaterial aufgenommen werden kann, und die Seite durch farbliche Markierungen und das Einfügen von Sonderzeichen und Emojis übersichtlich und für meine persönlichen Bedürfnisse der optischen Erfassbarkeit strukturiert ist. Zudem kann eine eigene Datenbank in Form eines Wikis erstellt werden, welches sowohl eine Übersicht als auch die verlinkten Detail- und Unterseiten enthält. Dies garantiert die globale Suche über alle Eintragungen, welches bei einer Ablage der Notizen über verschiedene Programme nicht gewährleistet ist. Hierbei ist jedoch das Problem, dass bei einer Sicherung im pdf-Format die Formatierung nicht einheitlich übertragen wird und – von größerer Wichtigkeit – das Programm die Datenmenge mittlerweile kaum bewältigen kann und sich stark verlangsamt. 

 

… zur Erstellung eines Datensets

Da am Ende des Förderzeitraumes ein bearbeiteter Datensatz, bereit zur Veröffentlichung, stehen sollte, besprachen wir gemeinsam mögliche Ansätze zur Auswahl. Wenig zeitintensiv wäre eine Aufstellung der bereits transkribierten Indexe sowie der Abbildungen aller fünf Bände. Da der Fokus des Fellowships jedoch auf der Lernerfahrung liegt, erprobte ich, einen komplexeren Sachverhalt in einer Tabelle strukturiert zu ordnen und zu verschlagworten. Zur Erstellung verschiedener Datensätze wählte ich das eingrenzbare Thema der Embryologie und untersuchte die Vorstellungen der Gesellschaft zu Kindsentwicklung im Mutterleib und Schwangerschaft in Aspekten der wissenschaftlichen Forschung, des christlichen Glaubens und volkstümlichen Aberglaubens.

Um die Grundsätze der Darstellung zu üben und auf Grund der CSV-Komptabilität der meisten Datenbanken, endschied ich mich fürs altbewährte Excel-Programm. Hierfür erstellte ich vier sogenannte (Tabellen-)Blätter in meiner Arbeitsmappe: Den transkribierten Index mit anatomiebezogenen Lemmata, eine Übersicht über die Sitzungen, in denen Themen zur Embryologie oder Schwangerschaft angesprochen wurden, einen kleinschrittigen Vergleich der eigentlichen Embryobetrachtungen sowie eine Übersicht über die erwähnten Personen. 

[Bild 3: Excel_Index] Transkribierte Indexeinträge zum Thema Anatomie in Excel

Eine Übersicht des Index enthält nur die notwendigen Stammangaben: Transkription des Lemmas, Band- und Seitenangabe, sowie Datum und Ort, an dem die entsprechende Sitzung abgehalten wurde. Zusätzlich wurde eine Einteilung in anatomische Themen und Kindsentwicklung vorgenommen. Hierbei zeigte sich schnell, dass durch das Lemma keine Trennschärfe zwischen der Diskussion der Entwicklung des Embryos oder anatomische Veränderungen bei der Mutter erkennbar ist. Beim Überblick der Sitzungen wurden die gleichen Angaben aus dem Index übernommen und ergänzt durch einen Aufbau beziehungsweise Ablauf der Sitzungen, ob und welche Literatur erwähnt wurde, ob Abbildungen ins Protokoll eingearbeitet wurden und ob Gäste anwesend waren. 

Hinsichtlich des Personenregisters taten sich die ersten Probleme auf. Nicht alle der beteiligten Personen besitzen eine sogenannte GND-Nummer (Gemeinsame Normdatei), die online beispielsweise bei der Deutschen Nationalbibliothek einsehbar ist und die wichtigsten Personendaten enthält. Andererseits sind manche der Personen auch nicht zuordenbar, da nicht genügend Informationen, wie beispielsweise Vorname oder Alter, angegeben wurden. Im Falle von Eberhard herrscht in der Forschung auch ein Diskurs, um welches Mitglied der Familie Eberhard gen. Schwind in Frankfurt es sich handeln könnte. Diese Angaben scheinen für die Gesellschaftsmitglieder so selbstverständlich, dass sie nicht niedergeschrieben wurden. Ein Nennen des Vor- und Nachnamens geschieht in der Regel nur bei den Brüdern Uffenbach, von denen die beiden jüngeren Mitglieder waren, sowie bei den bekannten Brüdern Senckenberg aus Frankfurt am Main. Auch sind die Angaben über die Anwesenheit von Gästen schwierig vollständig anzugeben. Nicht jede Anwesenheit wurde bei der jeweiligen Sitzung niedergeschrieben, sodass sich immer wieder Hinweise über eine vorherige, jedoch nicht erwähnte Teilnahme finden lassen. 

 

… über die verschriftliche Betrachtung von Embryonen

Als Untersuchungsobjekt für den Datensatz entschied ich mich für eine genauere Analyse der beschriebenen Betrachtungen von vorgelegten Embryonen. Dabei wurden in drei Sitzungen Embryonen beschrieben und in einer Sitzung ein totgeborenes Zwillingspaar, die nach Art der conjoined twins (im Deutschen noch als Siamesische Zwillinge beschrieben) im Kopf- und vor allem Gesichtsbereich verbunden waren. Für die genaue Analyse wählte ich die Unterkategorien der Alters- und Größenangabe, Art der Präparierung und Herkunft, sowie welche Wörter vom Schriftführer Uffenbach zur Beschreibung gewählt wurden.

[Bild 4: Protokoll] Freytag d 29 Decemb 1730, Bericht von der Geburt eines Zwillingspaares einer Gärtnersfrau

In allen vier Fällen wurden die Embryonen von Ärzten der Gesellschaft vorgelegt. Hierbei zeigte der Frankfurter Stadtphysicus Georg Kißner einen sehr kleinen, frischen Embryo, welcher „durch einen sicheren vorfall überkommen“ ihm von der Mutter wohl übergeben und auf nur 8 Wochen geschätzt wurde (Band I, S. 155). Auch der als drei Monate alte, in Weingeist eingelegte Embryo, den der Gast Dr. Fleischmann mitbrachte, wurde als „zufällig von einer patientin erhalten“ beschrieben (Band V, S. 687). Der einzig getrocknete Embryo wurde weitergeben, weswegen seine Herkunft der Gesellschaft nicht bekannt war und die Beschreibungen recht kurz ausfielen. 

Deutlich mehr Aufmerksamkeit hingegen wurde dem totgeborenen Zwillingspaar gewidmet, deren Fall die Mitglieder der Gesellschaft für längere Zeit beschäftigte. Zwar war der Arzt Kißner nicht an der Überredung der Mutter, die Leichen freizugeben, und der Exhumierung der bereits beerdigten Kinder beteiligt, doch wurde ihm vom Rat der Stadt deren präparierte Körper zur Aufbewahrung übergeben. In der Sitzung vom Dezember 1730 wurde dabei das in einem größeren Glas in Weingeist eingelegte Paar als Kuriosität präsentiert und über die weitere Präparation und Übergabe an ein anatomisches Theater diskutiert (Band IV, S. 122ff). Uffenbach, der die am Kopf verbundenen Kinder abzeichnete, wurde durch den Bericht eines historischen Falles zu weiteren Überlegungen, wie es zu einer derartigen Fehlbildung kommen könne, angeregt (Band IV, S. 334ff). Der als bedürftig betrachteten Mutter und Gärtnersfrau überbrachte man zudem als Entschädigung und für ihre gesunden Kinder das gesamte Geld der Gesellschaftskasse.

Die tabellarische Aufzählung der Beschreibungen hilft dabei, Muster zu erkennen. Auch bei der kleinen Untersuchungszahl ist beispielsweise zu erkennen, dass bei allen gut erhaltenen Embryonen, also der frische, unpräparierte und die beiden sogenannten Nasspräparate, der Wunderbegriff in der Beschreibung vorkommt. Hierbei ist auch zu sehen, dass Uffenbach als Schriftführer einen eigenen Kommentar ins Protokoll einbringt, indem er bei seinem ersten Anblick eines Embryos zitiert „Ich danke dir drüber daß ich wunderbahrlich gemacht bin” (Band I, S. 155 / Psalm 139.14). Ebenfalls ist gut zu erkennen, dass alle Embryonen – die gängige Bezeichnung der Zeit – mehr oder weniger freiwillig, aber durch die Mütter selbst übergeben wurden, und nicht beispielsweise als Schaustücke von anatomischen Theatern kursierten. Auch bei der Beschreibung zeigt sich, dass ein Fokus mehr auf der Beschreibung der einzelnen Gliedmaßen im Gegensatz zum Kopf lag. Auch wurde nur bei den eigentlichen Embryonen eine Größe angegeben, die nur einmal eine Maßangabe („nicht gar eines zolles lang“) enthält und ansonsten nur in Form eines Vergleiches („kaum 2 biß 3 gesternkörner längen“) geschieht.

 

… hin zur Veröffentlichung.

Nicht alle Daten können in dieser Ausführlichkeit in einem Artikel erwähnt oder abgedruckt werden. Insbesondere bei größeren Datensätzen ist es daher sinnvoll, diese gesondert zu veröffentlichen und Wissenschaftler*innen und Leser*innen zumindest zur Einsicht zur Verfügung zu stellen. Für eine Publikation der Forschungsdaten bieten sich verschiedene online Repositorien – also digitale Archive – an. Zu den bekanntesten Repositorien gehören zum Beispiel GitHub, welches in der Regel für die Bereitstellung und Ansicht von Software genutzt wird. Für wissenschaftliche Datensätze eignet sich Zenodo, das 2013 entwickelt wurde und von der Europäischen Kommission finanziert wird. Ich habe mich für eine Publikation auf Zenodo entschieden, da dort pro Datensatz eine sogenannte DOI (Digital Object Identifier, im deutschen auch digitaler Objektbezeichner) vergeben wird. Dies ist ein fester URL (Uniform Resource Locator), über den die Daten langfristig im Internet abgerufen und zitiert werden können. 

Bei Zeneodo kann ich meinen Datensatz bei der sogenannten Community des Deutschen Museum veröffentlichen. Die eigentlichen Schritte sind beim Upload relativ simple. Die Basic Information enthalten den Ressource Type (Bild, Datenset oder Publikation), Name und Datum, an dem das Datenset veröffentlich werden soll, Ersteller und eine Beschreibung. Bei der Beschreibung sollte das Nötigste angegeben werden, um die Herkunft und den Inhalt des Datensets so verständlich wie möglich zu machen, und vor allem eine Wiederfindbarkeit im digitalen Suchalgorithmus zu garantieren. Dies wird von den Recommended Information unterstützt, die eine Verschlagwortung des Datenset ermöglichen (Wissenschaftliche Gesellschaft, Embryologie, 18. Jahrhundert, wissenschaftliche Protokolle etc.). Zudem können andere, relevante Datensets verlinkt werden. All diese Daten sollten auch herunterladbar in einer sogenannten ReadMe-Datei im einfachen txt-Format bereitgestellt werden.

[Bild 5: Zenodo] Arbeitsansicht des Repositoriums Zenodo

Und dann gibt es noch die Frage nach dem Lizenztyps, auch CC-Lizenz genannt. Das CC (Creative Commons) zeugt erstmal davon, dass die Daten einen Urheber haben, der sich Rechte über die Daten beibehält. Über Generatoren wie auf der Creative Commons Website kann man sich sehr leicht durch einen Fragenkatalog eine individuelle CC-Lizenz zusammenstellen. Für meine Daten wählte ich CC BY-NC-SA 4.0. BY steht dabei für eine Nennung des Urhebers bei Verwendung der Daten; NC zeigt an, dass die Daten nur für nichtkommerzielle Zwecke genutzt werden dürfen; die Kennung SA gibt Hinweise zur Weiternutzung. Während ND „no derivatives“ die Veränderung and Einarbeitung in einen größeren Datenkorpus verbietet, wird durch SA gekennzeichnet, dass die Daten mit der gleichen CC aber in veränderter oder angepasster Form geteilt werden dürfen. Ganz klassisch steht die 4.0 für die Version, hierbei handelt es sich um die international Version 4, die eine solch individuelle Gestaltung der CC-Lizenz zulässt und beispielsweise auch von der Europäischen Kommission genutzt wird. 

 

Fazit

In die Einzelschritte aufgebrochen stellte die Arbeit mit Zenodo keine größere Hürde mehr dar. Durch mein NFDI4Memory FAIR Data Fellowship konnte ich nicht nur einen Einblick in die Welt der digitalen Archive und EDV bekommen, sondern lernte Repositorien auch gleich zu schätzen. Diese digitalen Archive ermöglichen es auch als einzelne Forscher*in Daten zu veröffentlichen, die meist als Vorarbeiten oder Zwischenschritte verborgen oder auf Grund ihrer Größe der Forschungsgemeinschaft vorenthalten bleiben. Da ich dieses Wissen auch gleich bei der Koordination studentischer Forschungsprojekte anwenden konnte, bin ich für die Betreuung und vor allem für die Geduld, mit der mir jede technische Abkürzung und Funktion grundlegend erklärt wurde, dem Team am Forschungsinstitut für Technik- und Wissenschaftsgeschichte des Deutschen Museums in München sehr dankbar. 

 

Lena Filzen

zum Datenset