datapublication

10 Erstellung und Mapping von Referenzvokabularen

< Back to problem stories

Als Spezialbibliothek erzeugen wir mit OCR Volltexte unserer digitalisierten Quellen für die Forschung. Mit digitalisierten und auf Lemma-Ebene erschlossenen Fachlexika (19. Jh) verfügen wir über zeitspezifisches Vokabular. Bislang fehlt es an Kapazitäten, dieses Vokabular als Gazetteer oder Ontologie aufzubereiten und für die automatische Analyse der Volltexte zur Verfügung zu stellen, also Vokabulare als Forschungsdateninfrastrukturleistung zu entwickeln. Weder für die Infrastrukureinrichtung (Bibliothek) noch für Wissenschaftler*innen existieren günstige Rahmenbedingungen (Finanzierung, wissenschaftliche Anerkennung) für solche fachlich spezialisierte Infrastrukturleistungen an der Schnittstelle zwischen historischer Subdisziplin, Informationswissenschaft und Data Science.

Posted on

9 Archivquellen – Zusammenarbeit mit vielen unterschiedlichen Archiven

< Back to problem stories

In einem größeren Forschungsprojekt arbeite ich mit Quellen ganz unterschiedlicher Provenienz, z.B. aus Zeitungsdatenbanken (Online-Archive von "Der Spiegel", "Die Zeit", aber auch Zeitungen aus dem Ausland; daneben Fernseh- und Rundfunk-Archive, das Bundesarchiv etc. Ich werte Zeitungsartikel, Protokolle von Bundestagsreden, Akten aus verschiedenen Ministerien, Fernsehserien u.v.m. als Quellen aus, und zwar qualitativ. Wie kann ich daraus einen Quellenkorpus machen, der so einheitlich ist, dass er sich irgendwie zur Nachnutzung aufbereiten lässt? Und wie kann ich die Archive, die ja die Rechteinhaber sind, mit ins Boot holen? Meine Idealvorstellung wäre ein E-book, in dem alle Quellenangaben in den Fußnoten "klickbar" sind, d.h. man kommt mit einem Klick zum Original.

Posted on

8 Anonymisierung qualitativ-empirischer Daten

< Back to problem stories

Als Nachwuchswissenschaftlerin bin ich bereits bei der Antragstellung von Drittmittelanträgen zur reflektierten Darstellung meines Forschungsdatenmanagements angehalten. Gewünscht wird eine nachnutzbare Aufbereitung und Aufbewahrung meines empirisch-qualitativen Datenmaterials, dass sowohl Interviews als auch Notizen aus teilnehmender Beobachtung umfasst. Gern bin ich bereit, mein Material zur Nachnutzung unter gewissen Umständen zur Verfügung zu stellen. Allerdings lassen sich vor allem in Audio-/Videodateien personenbezogene Angaben kaum anonymisieren. Damit kann bei der Bereitstellung des Materials auch kein Datenschutz der Informant*innen garantiert werden, wodurch ich meine Integrität zweifelhaft würde.

Posted on

6 Archivische Forschungsdaten massenhaft mit zukunftsfähigen Normdaten anreichern

< Back to problem stories

Als Archiv stellen wir massenhaft Erschließungsinformationen zu Archivgut im Sinne von primären Forschungsdaten im Internet bereit. Diese und weitere, noch nicht online veröffentlichte digitale Erschließungsinformationen liegen in sehr großer Zahl und unterschiedlicher Datenqualität vor. Eine Herausforderung ist die nachträgliche Anreicherung mit zukunftsfähigen Normdaten im Interesse einer vernetzten Recherche. Dabei bestehen zwei weisentliche Herausforderungen:
1. Benötigt werden Tools zur nachträglichen, automatisierten Anreicherung von Erschließungsinformationen in Archivinformationssystemen und den daraus zu exportierenden Onlineressourcen.
2. Während für Personen mit der GND ein anerkanntes Normdatensystem bereits institutionenübergreifend anerkannt ist, fehlt hinsichtlich von Geografika, Regional- und Gebietseinheiten noch eine vergleichbare Verbindlichkeit (z.B. GND, Amtliche Gemeindeschlüssel, Georeferenzierung).

Posted on

5 Sicherung der Nachhaltigkeit von MyCoRe-Daten

< Back to problem stories

An meiner Institution baue ich seit 2012 ein umfangreiches Informationssystem im MyCoRe System auf. Um das System dauerhaft nutzbar zu halten, ist in den nächsten Monaten dringend ein systemtechnisches Update des Informationssystems nötig, d.h. es müsste auf die nächste Version von MyCoRe übertragen werden.
Hierzu sind Mittel in Höhe einer halben Informatikerstelle für ein halbes Jahr nötig, Kapazitäten, die weder bei mir am Lehrstuhl noch im Rechenzentrum unserer Universität vorgehalten werden. Nun ist MyCoRe in Deutschland recht gebräuchlich, es kommt in rund 70 Anwendungen zum Einsatz, wo wahrscheinlich ähnliche Bedarfe anfallen. Meine Frage ist, ob hier nicht in punkto Finanzierung, Aufbau einer Koordinationsstelle und technische Umsetzung eine anwendungsübergreifende Lösung bereitgestellt werden könnte, die es den individuellen Projektleitern auf einfachere Weise ermöglichen würde, diese Updates durchzuführen.

Posted on

4 Wie kann unser Portal mit wertvollen Forschungsdaten in zehn Jahren noch benutzt werden?

< Back to problem stories

Als Verantwortlicher für die digitale Bereitstellung der Forschungsergebnisse in einer außeruniversitären Forschungseinrichtung bin ich für das langfristige Angebot, die Bereitstellung und Verfügbarkeit der Daten verantwortlich. Wir bieten online Themenportale mit Forschungsdaten an, die in der Regel über eine Suchmaske und einen Index erschlossen sind und z.B. auch im Kontext einer Karte angezeigt werden können. Wir möchten sicherstellen, dass die Daten auch noch in zehn oder 20 Jahren verwendet werden können, und zwar mit den Verknüpfungen und Querverweisen, die wir über die bei der Bereitstellung verwendeten Software erzeugen. Zwar nutzen viele Projekte inzwischen XML kodierte Daten nach dem TEI Standard, aber die Software zu Bereitstellung der Daten und einer benutzerfreundlichen Umgebung muss permanent gepflegt und angepasst werden, um z.B. Sicherheitsupdates in der verwendeten Software oder den Programmiersprachen zu gewährleisten. Zudem bestehen vielfältige Abhängigkeiten zwischen den verwendeten Programmpaketen. Teilweise werden die Daten auch unter Verwendung von Content Management Systemen angeboten oder sind darin eingebettet. Wie können wir sicherstellen, dass unsere Themenportale, die teilweise Ergebnisse jahrzehntelanger Forschungsarbeit präsentieren und bereitstellen, auch in Zukunft für Forscherinnen und Forscher mit einem individuell zum Thema passenden und die spezifische Datenstruktur abbildenden Interface nutzbar sind?

Posted on

2 Linked Data ja, aber wie?

< Back to problem stories

Als Forscher an einer fachwissenschaftlichen Einrichtung bin ich an einem kunsthistorischen Projekt beteiligt, das sich mit außereuropäischem Material beschäftigt. Wir möchten gerne Kunstwerke inhaltlich klassifizieren, aber die bestehenden (oft eurozentrischen) Vokabulare (IconClass, Getty) decken unser Material nicht ab. Wir brauchen also ein eigenes Vokabular, das aber möglichst (da, wo es Überschneidungen gibt) Cross-Links zu bestehenden Vokabularen bietet. Dafür steht an unserer Einrichtung keine Software bereit, und die typischen Lösungen (wie z.B. VocBench) sind kompliziert aufzusetzen.
Noch schwieriger wird es bei komplexeren Datenstrukturen, wie z.B. historischen Gazetteers, deren Modell noch etwas komplizierter ist als das eine Thesaurus. Hier bestehen z.B. mit LinkedPlaces gute Referenzformate, aber keine Tools, um komplatible Daten nutzerfreundlich zu erstellen.
Neben dem Editor für die Vokabulare selbst ist es für LinkedData natürlich auch notwendig, stabile URIs zu verwenden. Und auch wenn diese als Identifier nicht unbedingt auf eine tatsächliche Ressource verweisen müssen, ist es doch gute Praxis, dass die URIs auflösen und auf menschen- sowie maschinenlesbare Dokumentation verweisen. Unsere Einrichtung selbst kann dafür nicht die Gewähr der Dauer bieten. Also wäre ein Handle-System sowie ein System zur Generierung von Dokumentation für Vokabularen zusätzlich nützlich.

Posted on

1 Transformation wild gewachsener Datenbestände, nichts ist FAIR

< Back to problem stories

Mein Aufgabenschwerpunkt an einem Lehrstuhl der Geschichtswissenschaften ist die Konzeption unserer digitalen Projekte (vorrangig digitales Publizieren, digitale Wissensvermittlung) sowie die Koordination von deren Umsetzung durch unterschiedliche Teams. Seit Ende 2019 befassen mich die Daten einer vor einigen Jahren begonnenen Erschließung eines umfangreichen und sehr heterogenen Korrespondenzbestandes von Ende des 18. Jh./Anfang des 19. Jh. Ursprüngliches Ziel war, den Materialbestand mit einer ersten Roherschließung der Metadaten zu dokumentieren als Grundlage für eine Antragstellung auf Förderung einer digitalen Edition der Korrespondenzen. Das zu Beginn der Arbeiten vorrangig inhaltliche Interesse und eine stark editorische Sichtweise auf die Korrespondenzen haben Fragen des Forschungsdatenmanagements nicht weitreichend genug berücksichtigt. In der Folge wurden Rohdaten erhoben und in einer für die weitere Datenbe- und -verarbeitung nicht geeigneten Form dokumentiert. Das Ende des Dienstverhältnisses des Hauptbearbeiters führte dazu, dass das ursprüngliche Projektziel des Antrags auf Förderung einer digitalen Edition nur noch mit geringen Bordmitteln von verschiedenen BearbeiterInnen, die etwas Zeit erübrigen konnten, betrieben wurde. Formale Erfassungsstandards wurden nicht mehr konsequent angewendet bzw. nachgehalten und haben am Ende zu einer umfangreichen, aber qualitativ äußerst heterogenen Datenlage geführt. 2019 wurde meinem Vorschlag zugestimmt, das ursprüngliche Projektziel umzudefinieren und anstelle einer digitalen Edition die erhobenen Daten aufgrund ihres Umfangs und Potenzials in Form eines Metadatenkatalogs recherchierbar und nachnutzbar zu machen. Ich habe die Rolle der Datenkuratorin übernommen und in Zusammenarbeit mit der ansässigen Bibliothek, einer digitalen Expertin und wiss. MitarbeiterInnen ein erweitertes Datenmodell entwickelt, habe den ersten Teil der Rohdaten in Excel standardisiert und transformiert für die Übernahme in ein neues Datenbanksystem und koordiniere das Team, das den weiteren wiss. Abgleich der Datensätze bzw. Metadaten am Material vornimmt.

Das alles wäre im Nachhinein deutlich weniger mühsam und ressourcenaufwändig, wären die Rohdaten zumindest in einer nachnutzbaren Struktur dokumentiert gewesen. Aus meiner Sicht sind zwei Dinge unbedingt erforderlich: Projekte, in denen Daten generiert werden, brauchen von Anfang an professionelle Begleitung durch Infrastrukturpartner, die sich auch als Dienstleister der WissenschaftlerInnen verstehen wollen. Wir brauchen AnsprechpartnerInnen im IT-Bereich. Parallel dazu müssen die historisch arbeitenden GeisteswissenschaftlerInnen selbst ausreichende Kompetenzen im Umgang mit Forschungsdaten entwickeln, um überhaupt sprechfähig zu sein: Welche Daten erheben wir, welche Fragen haben wir am Ende an die Daten und welches Datenmodell brauchen wir dafür, welche Datenstandards müssen wir berücksichtigen, um Auswertung und Nachnutzung zu ermöglichen? In welchen zeitlichen Dimensionen bewegen wir uns? Was soll am Ende mit den Daten passieren? Das können und sollen uns InfrastrukturpartnerInnen nicht abnehmen.

Posted on