Problem Story | 4Memory/Nationale Forschungsdaten Infrastruktur (NFDI)

Problem Story

2 Linked Data ja, aber wie?

Als Forscher an einer fachwissenschaftlichen Einrichtung bin ich an einem kunsthistorischen Projekt beteiligt, das sich mit außereuropäischem Material beschäftigt. Wir möchten gerne Kunstwerke inhaltlich klassifizieren, aber die bestehenden (oft eurozentrischen) Vokabulare (IconClass, Getty) decken unser Material nicht ab. Wir brauchen also ein eigenes Vokabular, das aber möglichst (da, wo es Überschneidungen gibt) Cross-Links zu bestehenden Vokabularen bietet. Dafür steht an unserer Einrichtung keine Software bereit, und die typischen Lösungen (wie z.B. VocBench) sind kompliziert aufzusetzen.
Noch schwieriger wird es bei komplexeren Datenstrukturen, wie z.B. historischen Gazetteers, deren Modell noch etwas komplizierter ist als das eine Thesaurus. Hier bestehen z.B. mit LinkedPlaces gute Referenzformate, aber keine Tools, um komplatible Daten nutzerfreundlich zu erstellen.
Neben dem Editor für die Vokabulare selbst ist es für LinkedData natürlich auch notwendig, stabile URIs zu verwenden. Und auch wenn diese als Identifier nicht unbedingt auf eine tatsächliche Ressource verweisen müssen, ist es doch gute Praxis, dass die URIs auflösen und auf menschen- sowie maschinenlesbare Dokumentation verweisen. Unsere Einrichtung selbst kann dafür nicht die Gewähr der Dauer bieten. Also wäre ein Handle-System sowie ein System zur Generierung von Dokumentation für Vokabularen zusätzlich nützlich.

Task Area

Perspective

Tags

Linked Open Data
Gazetteer
Permanent Identifier

1 Transformation wild gewachsener Datenbestände, nichts ist FAIR

< Back to problem stories

Mein Aufgabenschwerpunkt an einem Lehrstuhl der Geschichtswissenschaften ist die Konzeption unserer digitalen Projekte (vorrangig digitales Publizieren, digitale Wissensvermittlung) sowie die Koordination von deren Umsetzung durch unterschiedliche Teams. Seit Ende 2019 befassen mich die Daten einer vor einigen Jahren begonnenen Erschließung eines umfangreichen und sehr heterogenen Korrespondenzbestandes von Ende des 18. Jh./Anfang des 19. Jh. Ursprüngliches Ziel war, den Materialbestand mit einer ersten Roherschließung der Metadaten zu dokumentieren als Grundlage für eine Antragstellung auf Förderung einer digitalen Edition der Korrespondenzen. Das zu Beginn der Arbeiten vorrangig inhaltliche Interesse und eine stark editorische Sichtweise auf die Korrespondenzen haben Fragen des Forschungsdatenmanagements nicht weitreichend genug berücksichtigt. In der Folge wurden Rohdaten erhoben und in einer für die weitere Datenbe- und -verarbeitung nicht geeigneten Form dokumentiert. Das Ende des Dienstverhältnisses des Hauptbearbeiters führte dazu, dass das ursprüngliche Projektziel des Antrags auf Förderung einer digitalen Edition nur noch mit geringen Bordmitteln von verschiedenen BearbeiterInnen, die etwas Zeit erübrigen konnten, betrieben wurde. Formale Erfassungsstandards wurden nicht mehr konsequent angewendet bzw. nachgehalten und haben am Ende zu einer umfangreichen, aber qualitativ äußerst heterogenen Datenlage geführt. 2019 wurde meinem Vorschlag zugestimmt, das ursprüngliche Projektziel umzudefinieren und anstelle einer digitalen Edition die erhobenen Daten aufgrund ihres Umfangs und Potenzials in Form eines Metadatenkatalogs recherchierbar und nachnutzbar zu machen. Ich habe die Rolle der Datenkuratorin übernommen und in Zusammenarbeit mit der ansässigen Bibliothek, einer digitalen Expertin und wiss. MitarbeiterInnen ein erweitertes Datenmodell entwickelt, habe den ersten Teil der Rohdaten in Excel standardisiert und transformiert für die Übernahme in ein neues Datenbanksystem und koordiniere das Team, das den weiteren wiss. Abgleich der Datensätze bzw. Metadaten am Material vornimmt.

Das alles wäre im Nachhinein deutlich weniger mühsam und ressourcenaufwändig, wären die Rohdaten zumindest in einer nachnutzbaren Struktur dokumentiert gewesen. Aus meiner Sicht sind zwei Dinge unbedingt erforderlich: Projekte, in denen Daten generiert werden, brauchen von Anfang an professionelle Begleitung durch Infrastrukturpartner, die sich auch als Dienstleister der WissenschaftlerInnen verstehen wollen. Wir brauchen AnsprechpartnerInnen im IT-Bereich. Parallel dazu müssen die historisch arbeitenden GeisteswissenschaftlerInnen selbst ausreichende Kompetenzen im Umgang mit Forschungsdaten entwickeln, um überhaupt sprechfähig zu sein: Welche Daten erheben wir, welche Fragen haben wir am Ende an die Daten und welches Datenmodell brauchen wir dafür, welche Datenstandards müssen wir berücksichtigen, um Auswertung und Nachnutzung zu ermöglichen? In welchen zeitlichen Dimensionen bewegen wir uns? Was soll am Ende mit den Daten passieren? Das können und sollen uns InfrastrukturpartnerInnen nicht abnehmen.

Task Area

Perspective

Tags

heterogene Datenlage
Datenmanagementplan
Kooperation Wissenschaft-IT