datacollection

16 Digital Literacy am Projektstart

< Back to problem stories

An der Akademie der Wissenschaften und der Literatur, Mainz bin ich tätig im Projekt Regesta Imperii und als Projektleiter von DFG-Projekten.
Dabei kommen immer wieder andere DFG-Projekte mit der Bitte auf mich zu, beim digitalen Start zu helfen. Fragen drehen sich z.B. um
Welche Programme für die Datenaufnahme ?
Welche Datenmodellierung kann genutzt werden ?
Wo können die Daten gespeichert werden ?

Wie sieht unsere Datenmodellierung konkret aus ?
Meist finden wir gemeinsam schnell eine Lösung, mit der das Projekt starten kann. Nach einigen Monaten gibt es nochmal ein Treffen um weitere Fragen zu klären.
Eigentlich benötigt jedes DFG-Projekt welches nicht eine eigene IT-Stelle beantragt hat oder keinen Zugriff auf institutionelle Unterstützung hat eine solche Anfangsbetreuung, die auch finanziell vergütet werden sollte.
Vielleicht könnte man einen Anteil des Overheads in Form von Beratungsgutscheinen an die Projekte geben, die diese dann gegen diese Dienstleistung eintauschen könnten.

Posted on

15 Markup language for biographical information about "ordinary people"

< Back to problem stories

We are editing 19th century migrant letters that are physically located in German and American archives. In order to be able to reconstruct migration patterns and migrant networks, we would like to mark persons with a unique identifier. Since these are “ordinary people”, we do not find them in existing Authority Files such as GND, LoC or Wikidata. How should we reference the existing biographical information and which markup language should we use so that the biographical information that we retrieve from the letters and from archives can easily be enhanced by future biographical research? Should we transfer our data into the Integrated Authority File (GND) and if yes, how can we do this? Secondly, we would like to store and document all biographical details (baptism, marriage and death records, census records, pension records, emigration records, ship lists) as well as additional information gathered from the letters such as occupation, places of living and family events, contacts between migrants, their families, old and new neighbors, friends and acquaintances, in order to map and visualize the migration and mobility networks. Which service and platform should we use for cooperative research data management and the long-term preservation of our research data? Which digital tools should we use for GIS mapping and network visualization?

Posted on

10 Erstellung und Mapping von Referenzvokabularen

< Back to problem stories

Als Spezialbibliothek erzeugen wir mit OCR Volltexte unserer digitalisierten Quellen für die Forschung. Mit digitalisierten und auf Lemma-Ebene erschlossenen Fachlexika (19. Jh) verfügen wir über zeitspezifisches Vokabular. Bislang fehlt es an Kapazitäten, dieses Vokabular als Gazetteer oder Ontologie aufzubereiten und für die automatische Analyse der Volltexte zur Verfügung zu stellen, also Vokabulare als Forschungsdateninfrastrukturleistung zu entwickeln. Weder für die Infrastrukureinrichtung (Bibliothek) noch für Wissenschaftler*innen existieren günstige Rahmenbedingungen (Finanzierung, wissenschaftliche Anerkennung) für solche fachlich spezialisierte Infrastrukturleistungen an der Schnittstelle zwischen historischer Subdisziplin, Informationswissenschaft und Data Science.

Posted on

2 Linked Data ja, aber wie?

< Back to problem stories

Als Forscher an einer fachwissenschaftlichen Einrichtung bin ich an einem kunsthistorischen Projekt beteiligt, das sich mit außereuropäischem Material beschäftigt. Wir möchten gerne Kunstwerke inhaltlich klassifizieren, aber die bestehenden (oft eurozentrischen) Vokabulare (IconClass, Getty) decken unser Material nicht ab. Wir brauchen also ein eigenes Vokabular, das aber möglichst (da, wo es Überschneidungen gibt) Cross-Links zu bestehenden Vokabularen bietet. Dafür steht an unserer Einrichtung keine Software bereit, und die typischen Lösungen (wie z.B. VocBench) sind kompliziert aufzusetzen.
Noch schwieriger wird es bei komplexeren Datenstrukturen, wie z.B. historischen Gazetteers, deren Modell noch etwas komplizierter ist als das eine Thesaurus. Hier bestehen z.B. mit LinkedPlaces gute Referenzformate, aber keine Tools, um komplatible Daten nutzerfreundlich zu erstellen.
Neben dem Editor für die Vokabulare selbst ist es für LinkedData natürlich auch notwendig, stabile URIs zu verwenden. Und auch wenn diese als Identifier nicht unbedingt auf eine tatsächliche Ressource verweisen müssen, ist es doch gute Praxis, dass die URIs auflösen und auf menschen- sowie maschinenlesbare Dokumentation verweisen. Unsere Einrichtung selbst kann dafür nicht die Gewähr der Dauer bieten. Also wäre ein Handle-System sowie ein System zur Generierung von Dokumentation für Vokabularen zusätzlich nützlich.

Posted on

1 Transformation wild gewachsener Datenbestände, nichts ist FAIR

< Back to problem stories

Mein Aufgabenschwerpunkt an einem Lehrstuhl der Geschichtswissenschaften ist die Konzeption unserer digitalen Projekte (vorrangig digitales Publizieren, digitale Wissensvermittlung) sowie die Koordination von deren Umsetzung durch unterschiedliche Teams. Seit Ende 2019 befassen mich die Daten einer vor einigen Jahren begonnenen Erschließung eines umfangreichen und sehr heterogenen Korrespondenzbestandes von Ende des 18. Jh./Anfang des 19. Jh. Ursprüngliches Ziel war, den Materialbestand mit einer ersten Roherschließung der Metadaten zu dokumentieren als Grundlage für eine Antragstellung auf Förderung einer digitalen Edition der Korrespondenzen. Das zu Beginn der Arbeiten vorrangig inhaltliche Interesse und eine stark editorische Sichtweise auf die Korrespondenzen haben Fragen des Forschungsdatenmanagements nicht weitreichend genug berücksichtigt. In der Folge wurden Rohdaten erhoben und in einer für die weitere Datenbe- und -verarbeitung nicht geeigneten Form dokumentiert. Das Ende des Dienstverhältnisses des Hauptbearbeiters führte dazu, dass das ursprüngliche Projektziel des Antrags auf Förderung einer digitalen Edition nur noch mit geringen Bordmitteln von verschiedenen BearbeiterInnen, die etwas Zeit erübrigen konnten, betrieben wurde. Formale Erfassungsstandards wurden nicht mehr konsequent angewendet bzw. nachgehalten und haben am Ende zu einer umfangreichen, aber qualitativ äußerst heterogenen Datenlage geführt. 2019 wurde meinem Vorschlag zugestimmt, das ursprüngliche Projektziel umzudefinieren und anstelle einer digitalen Edition die erhobenen Daten aufgrund ihres Umfangs und Potenzials in Form eines Metadatenkatalogs recherchierbar und nachnutzbar zu machen. Ich habe die Rolle der Datenkuratorin übernommen und in Zusammenarbeit mit der ansässigen Bibliothek, einer digitalen Expertin und wiss. MitarbeiterInnen ein erweitertes Datenmodell entwickelt, habe den ersten Teil der Rohdaten in Excel standardisiert und transformiert für die Übernahme in ein neues Datenbanksystem und koordiniere das Team, das den weiteren wiss. Abgleich der Datensätze bzw. Metadaten am Material vornimmt.

Das alles wäre im Nachhinein deutlich weniger mühsam und ressourcenaufwändig, wären die Rohdaten zumindest in einer nachnutzbaren Struktur dokumentiert gewesen. Aus meiner Sicht sind zwei Dinge unbedingt erforderlich: Projekte, in denen Daten generiert werden, brauchen von Anfang an professionelle Begleitung durch Infrastrukturpartner, die sich auch als Dienstleister der WissenschaftlerInnen verstehen wollen. Wir brauchen AnsprechpartnerInnen im IT-Bereich. Parallel dazu müssen die historisch arbeitenden GeisteswissenschaftlerInnen selbst ausreichende Kompetenzen im Umgang mit Forschungsdaten entwickeln, um überhaupt sprechfähig zu sein: Welche Daten erheben wir, welche Fragen haben wir am Ende an die Daten und welches Datenmodell brauchen wir dafür, welche Datenstandards müssen wir berücksichtigen, um Auswertung und Nachnutzung zu ermöglichen? In welchen zeitlichen Dimensionen bewegen wir uns? Was soll am Ende mit den Daten passieren? Das können und sollen uns InfrastrukturpartnerInnen nicht abnehmen.

Posted on