Task Area 4

19 Digitale Quellenkritik bedenken

Vor dem Hintergrund meiner Erfahrungen als Hochschullehrerin scheint es mir so zu sein, dass die Geschichtswissenschaften digitale Ressourcen noch kaum als neuen und auch relevanten Lehrinhalt etabliert haben. Das bringt auch mit sich, dass die Quellenkritik bspw. zu digitalisierten und "born digital" Quellen noch zu wenig in der Fachkultur verankert ist. Das bringt Probleme für die Lehre mit sich, wenn es darum geht, Studierenden die Komplexität der digitalen Quellenkritik zu vermitteln, Fragen von Authentizität, Qualität usw. zu diskutieren. Da hilft der reine Bezug auf formale Standards nicht viel weiter. Es braucht einen im Fach verankerten, kritischen Diskurs. Das schließt auch ein viel aktiveres Rezensionswesen ein, als dies bspw. für digitale Quellensammlungen (auch Forschungsdatenpublikationen) bislang der Fall ist. Aber vermutlich müsste das Fach dann auch über die Reputation von digitalen Publikationen und den Aufwand, diese adäquat zu besprechen, diskutieren.

Task Area

Perspective

datareuse

Tags

Digitale Publikationen
Lehre
Verwendung von digitalen Ressourcen für Forschung und Lehre

18 Erfassung, Geo-Lokalisierung und Visualisierung von handschriftlich verfassten Massendaten

< Back to problem stories

Seit einiger Zeit arbeite ich mit einer kleinen Gruppe an der Zusammenstellung von Glockengussdaten. Dabei handelt es sich um Informationen, die 1940/41 anlässlich der bevorstehenden Einschmelzung der Glocken auf Karteikarten gesammelt wurden, insgesamt etwa 20.000. Für uns von Interesse sind Standort der Glocke (1940/41) und Zeitpunkt des Glockengusses (z.T. zurück bis ins 11. Jh.). Da Glocken fast nie den Standort wechseln, soll im Endergebnis eine Art dynamische Heatmap über die Jahrhunderte gezeigt werden, wann wo besonders viele oder wenig Glocken gegossen wurden. In Ermangelung wirtschaftsstatistischer Daten wäre das eine Art Proxy-Variable für wirtschaftliche Konjunkturen (das ist jetzt alles sehr grob vereinfacht). Alle Karteikarten liegen in digitalisierter Form vor. Unser erstes Problem betrifft die Übertragung der relevanten Daten (v.a. Standort und Glockengussdatum) von der handgeschriebenen Karteikarte in eine Tabelle. Wo finden wir Informationen darüber, welche Software sich für das Einlesen relativ standardisierter, aber eben handgeschriebener Daten eignet? Wieviel Nachkorrekturen sind ungefähr nötig? Um zweitens eine Glocke mit vertretbarem Aufwand georeferenzieren zu können, benötigen wir eine Zuordnung des Ortsnamens von 1940/41 zu einer Geo-Position. Wo finden wir eine Übersicht über entsprechende Datenbanken? Erschwerend kommt hinzu, dass 1940/41 selbständige Gemeinden heute nur noch Stadtteile oder unselbständige Teilgemeinden sind. Drittens schließlich stellt sich die Frage der Visualisierung. Die politischen Grenzen haben sich vom 11. Jahrhundert bis 1941 immer wieder geändert. Gibt es historische Karten, die es erlauben würden, auf der dynamischen heatmap die korrekten jeweiligen Grenzverläufe zu visualisieren (etwa in 50-Jahres-Abständen)?

Task Area

Perspective

Tags

Handschriftenerkennung
Georeferenzierung
Karten

17 Sonden in die entstehende Konsumgesellschaft: Hamburger Importzolldeklarationen, 1736-1798

< Back to problem stories

Aus Hamburg sind aus den Jahren 1736-1798 für 36 Jahre total 180.000 individuelle Importzolldeklarationen aus dem seeseitigen Handel erhalten. Die Deklarationen enthalten u. a. die Namen der Importkaufleute, Bezeichnungen der verzollten Waren, eine Schätzung von deren Wert, Herkunftsort der Schiffsreise und Datum. Es handelt sich um einen der umfangreichsten und wichtigsten Bestände zur deutschen Handelsgeschichte des 18. Jahrhunderts. Es eignet sich zur Analyse der Anfänge der Konsumgesellschaft in Deutschland, der Verbreitung des Konsums von Kolonialwaren, der aggregierten Entwicklung der deutschen Außenwirtschaft sowie (allerdings nur selektiv) der Aktivitäten individueller Kaufleute. Das Material wurde im Rahmen des Projekts zur Historischen Statistik Deutschlands erhoben und unterschiedlich aggregiert publiziert (Schneider et al. 2001). Um sie analysierbar zu machen, wurden die Daten in eine MS-Access-Datenbank eingebettet, die insbesondere Handelsgüter nach Güterklassen bzw. Herkunftsorte nach Ländern und Regionen zusammenzufassen erlaubt. Die Datenbank zirkuliert informell in verschiedenen Fassungen und hat bisher wenigstens zwei Publikationen zur Grundlage gedient. Das Erkenntnispotential des Korpus ist damit längstens nicht erschöpft. Die problem story kreist damit um die Herausforderung, diese wichtige Datenbank Forscher*innen leicht zugänglich zu machen. Hierzu muss (1) die Datenbank noch weiter geputzt werden, was Aufgabe der damit Arbeitenden (unter Einschluss des Schreibenden) ist. (2) müssen die existierenden Datenbankabfragen zu einem geschlossenen Interface ausgebaut werden, wozu ein gewisser Beratungsbedarf besteht, da die Kompetenz wenigstens des Schreibenden im Bereich der Entwicklung von Datenbankanwendungen begrenzt ist. (3) muss ein Datenarchiv gefunden werden. (GESIS hat die Annahme historischer Forschungsdaten eingestellt.) (4) eignen sich zentrale, aggregierte Zeitreihen für eine historische Statistik. Einschlägig wäre HISTAT, aber GESIS hat die Weiterentwicklung von HISTAT eingestellt. Benötigte Services sind somit: (i) Einschlägiges Datenarchiv; (ii) Unterstützung bei der Aufbereitung einer Datenbank für ein Datenarchiv; (iii) Weiterentwicklung von HISTAT.

Task Area

Perspective

Tags

Datenarchiv
Nachnutzung relationaler Datenbanken
historische Zeitreihen

16 Digital Literacy am Projektstart

< Back to problem stories

An der Akademie der Wissenschaften und der Literatur, Mainz bin ich tätig im Projekt Regesta Imperii und als Projektleiter von DFG-Projekten.
Dabei kommen immer wieder andere DFG-Projekte mit der Bitte auf mich zu, beim digitalen Start zu helfen. Fragen drehen sich z.B. um
Welche Programme für die Datenaufnahme ?
Welche Datenmodellierung kann genutzt werden ?
Wo können die Daten gespeichert werden ?

Wie sieht unsere Datenmodellierung konkret aus ?
Meist finden wir gemeinsam schnell eine Lösung, mit der das Projekt starten kann. Nach einigen Monaten gibt es nochmal ein Treffen um weitere Fragen zu klären.
Eigentlich benötigt jedes DFG-Projekt welches nicht eine eigene IT-Stelle beantragt hat oder keinen Zugriff auf institutionelle Unterstützung hat eine solche Anfangsbetreuung, die auch finanziell vergütet werden sollte.
Vielleicht könnte man einen Anteil des Overheads in Form von Beratungsgutscheinen an die Projekte geben, die diese dann gegen diese Dienstleistung eintauschen könnten.

Task Area

Perspective

Tags

Data Literacy
Finanzierung

1 Transformation wild gewachsener Datenbestände, nichts ist FAIR

< Back to problem stories

Mein Aufgabenschwerpunkt an einem Lehrstuhl der Geschichtswissenschaften ist die Konzeption unserer digitalen Projekte (vorrangig digitales Publizieren, digitale Wissensvermittlung) sowie die Koordination von deren Umsetzung durch unterschiedliche Teams. Seit Ende 2019 befassen mich die Daten einer vor einigen Jahren begonnenen Erschließung eines umfangreichen und sehr heterogenen Korrespondenzbestandes von Ende des 18. Jh./Anfang des 19. Jh. Ursprüngliches Ziel war, den Materialbestand mit einer ersten Roherschließung der Metadaten zu dokumentieren als Grundlage für eine Antragstellung auf Förderung einer digitalen Edition der Korrespondenzen. Das zu Beginn der Arbeiten vorrangig inhaltliche Interesse und eine stark editorische Sichtweise auf die Korrespondenzen haben Fragen des Forschungsdatenmanagements nicht weitreichend genug berücksichtigt. In der Folge wurden Rohdaten erhoben und in einer für die weitere Datenbe- und -verarbeitung nicht geeigneten Form dokumentiert. Das Ende des Dienstverhältnisses des Hauptbearbeiters führte dazu, dass das ursprüngliche Projektziel des Antrags auf Förderung einer digitalen Edition nur noch mit geringen Bordmitteln von verschiedenen BearbeiterInnen, die etwas Zeit erübrigen konnten, betrieben wurde. Formale Erfassungsstandards wurden nicht mehr konsequent angewendet bzw. nachgehalten und haben am Ende zu einer umfangreichen, aber qualitativ äußerst heterogenen Datenlage geführt. 2019 wurde meinem Vorschlag zugestimmt, das ursprüngliche Projektziel umzudefinieren und anstelle einer digitalen Edition die erhobenen Daten aufgrund ihres Umfangs und Potenzials in Form eines Metadatenkatalogs recherchierbar und nachnutzbar zu machen. Ich habe die Rolle der Datenkuratorin übernommen und in Zusammenarbeit mit der ansässigen Bibliothek, einer digitalen Expertin und wiss. MitarbeiterInnen ein erweitertes Datenmodell entwickelt, habe den ersten Teil der Rohdaten in Excel standardisiert und transformiert für die Übernahme in ein neues Datenbanksystem und koordiniere das Team, das den weiteren wiss. Abgleich der Datensätze bzw. Metadaten am Material vornimmt.

Das alles wäre im Nachhinein deutlich weniger mühsam und ressourcenaufwändig, wären die Rohdaten zumindest in einer nachnutzbaren Struktur dokumentiert gewesen. Aus meiner Sicht sind zwei Dinge unbedingt erforderlich: Projekte, in denen Daten generiert werden, brauchen von Anfang an professionelle Begleitung durch Infrastrukturpartner, die sich auch als Dienstleister der WissenschaftlerInnen verstehen wollen. Wir brauchen AnsprechpartnerInnen im IT-Bereich. Parallel dazu müssen die historisch arbeitenden GeisteswissenschaftlerInnen selbst ausreichende Kompetenzen im Umgang mit Forschungsdaten entwickeln, um überhaupt sprechfähig zu sein: Welche Daten erheben wir, welche Fragen haben wir am Ende an die Daten und welches Datenmodell brauchen wir dafür, welche Datenstandards müssen wir berücksichtigen, um Auswertung und Nachnutzung zu ermöglichen? In welchen zeitlichen Dimensionen bewegen wir uns? Was soll am Ende mit den Daten passieren? Das können und sollen uns InfrastrukturpartnerInnen nicht abnehmen.

Task Area

Perspective

Tags

heterogene Datenlage
Datenmanagementplan
Kooperation Wissenschaft-IT