Task Area 1

18 Erfassung, Geo-Lokalisierung und Visualisierung von handschriftlich verfassten Massendaten

< Back to problem stories

Seit einiger Zeit arbeite ich mit einer kleinen Gruppe an der Zusammenstellung von Glockengussdaten. Dabei handelt es sich um Informationen, die 1940/41 anlässlich der bevorstehenden Einschmelzung der Glocken auf Karteikarten gesammelt wurden, insgesamt etwa 20.000. Für uns von Interesse sind Standort der Glocke (1940/41) und Zeitpunkt des Glockengusses (z.T. zurück bis ins 11. Jh.). Da Glocken fast nie den Standort wechseln, soll im Endergebnis eine Art dynamische Heatmap über die Jahrhunderte gezeigt werden, wann wo besonders viele oder wenig Glocken gegossen wurden. In Ermangelung wirtschaftsstatistischer Daten wäre das eine Art Proxy-Variable für wirtschaftliche Konjunkturen (das ist jetzt alles sehr grob vereinfacht). Alle Karteikarten liegen in digitalisierter Form vor. Unser erstes Problem betrifft die Übertragung der relevanten Daten (v.a. Standort und Glockengussdatum) von der handgeschriebenen Karteikarte in eine Tabelle. Wo finden wir Informationen darüber, welche Software sich für das Einlesen relativ standardisierter, aber eben handgeschriebener Daten eignet? Wieviel Nachkorrekturen sind ungefähr nötig? Um zweitens eine Glocke mit vertretbarem Aufwand georeferenzieren zu können, benötigen wir eine Zuordnung des Ortsnamens von 1940/41 zu einer Geo-Position. Wo finden wir eine Übersicht über entsprechende Datenbanken? Erschwerend kommt hinzu, dass 1940/41 selbständige Gemeinden heute nur noch Stadtteile oder unselbständige Teilgemeinden sind. Drittens schließlich stellt sich die Frage der Visualisierung. Die politischen Grenzen haben sich vom 11. Jahrhundert bis 1941 immer wieder geändert. Gibt es historische Karten, die es erlauben würden, auf der dynamischen heatmap die korrekten jeweiligen Grenzverläufe zu visualisieren (etwa in 50-Jahres-Abständen)?

Posted on

17 Sonden in die entstehende Konsumgesellschaft: Hamburger Importzolldeklarationen, 1736-1798

< Back to problem stories

Aus Hamburg sind aus den Jahren 1736-1798 für 36 Jahre total 180.000 individuelle Importzolldeklarationen aus dem seeseitigen Handel erhalten. Die Deklarationen enthalten u. a. die Namen der Importkaufleute, Bezeichnungen der verzollten Waren, eine Schätzung von deren Wert, Herkunftsort der Schiffsreise und Datum. Es handelt sich um einen der umfangreichsten und wichtigsten Bestände zur deutschen Handelsgeschichte des 18. Jahrhunderts. Es eignet sich zur Analyse der Anfänge der Konsumgesellschaft in Deutschland, der Verbreitung des Konsums von Kolonialwaren, der aggregierten Entwicklung der deutschen Außenwirtschaft sowie (allerdings nur selektiv) der Aktivitäten individueller Kaufleute. Das Material wurde im Rahmen des Projekts zur Historischen Statistik Deutschlands erhoben und unterschiedlich aggregiert publiziert (Schneider et al. 2001). Um sie analysierbar zu machen, wurden die Daten in eine MS-Access-Datenbank eingebettet, die insbesondere Handelsgüter nach Güterklassen bzw. Herkunftsorte nach Ländern und Regionen zusammenzufassen erlaubt. Die Datenbank zirkuliert informell in verschiedenen Fassungen und hat bisher wenigstens zwei Publikationen zur Grundlage gedient. Das Erkenntnispotential des Korpus ist damit längstens nicht erschöpft. Die problem story kreist damit um die Herausforderung, diese wichtige Datenbank Forscher*innen leicht zugänglich zu machen. Hierzu muss (1) die Datenbank noch weiter geputzt werden, was Aufgabe der damit Arbeitenden (unter Einschluss des Schreibenden) ist. (2) müssen die existierenden Datenbankabfragen zu einem geschlossenen Interface ausgebaut werden, wozu ein gewisser Beratungsbedarf besteht, da die Kompetenz wenigstens des Schreibenden im Bereich der Entwicklung von Datenbankanwendungen begrenzt ist. (3) muss ein Datenarchiv gefunden werden. (GESIS hat die Annahme historischer Forschungsdaten eingestellt.) (4) eignen sich zentrale, aggregierte Zeitreihen für eine historische Statistik. Einschlägig wäre HISTAT, aber GESIS hat die Weiterentwicklung von HISTAT eingestellt. Benötigte Services sind somit: (i) Einschlägiges Datenarchiv; (ii) Unterstützung bei der Aufbereitung einer Datenbank für ein Datenarchiv; (iii) Weiterentwicklung von HISTAT.

Posted on

15 Markup language for biographical information about "ordinary people"

< Back to problem stories

We are editing 19th century migrant letters that are physically located in German and American archives. In order to be able to reconstruct migration patterns and migrant networks, we would like to mark persons with a unique identifier. Since these are “ordinary people”, we do not find them in existing Authority Files such as GND, LoC or Wikidata. How should we reference the existing biographical information and which markup language should we use so that the biographical information that we retrieve from the letters and from archives can easily be enhanced by future biographical research? Should we transfer our data into the Integrated Authority File (GND) and if yes, how can we do this? Secondly, we would like to store and document all biographical details (baptism, marriage and death records, census records, pension records, emigration records, ship lists) as well as additional information gathered from the letters such as occupation, places of living and family events, contacts between migrants, their families, old and new neighbors, friends and acquaintances, in order to map and visualize the migration and mobility networks. Which service and platform should we use for cooperative research data management and the long-term preservation of our research data? Which digital tools should we use for GIS mapping and network visualization?

Posted on

14 Fehlende Angaben, wie Fotos genutzt werden können

< Back to problem stories

Ich leite eine historische Beratung für Autorinnen und Autoren. Daher arbeite ich viel mit Online-Bilddatenbanken aus der ganzen Welt. Gerade bei den deutschen Datenbanken fällt mir auf: Es wird zwar fleißig digitalisiert und ins Netz gestellt. Ob man diese Bilder aber nutzen kann, z.B. in einem Roman, einem Bildband oder einer Dissertation veröffentlichen kann, steht nicht direkt am Bild.
Man muss für jedes Bild einzeln nachfragen. Oft landen die Anfragen an einer anderen Stelle, die die Digitalisierung nicht durchgeführt hat (info). Wenn gleich AM BILD jedesmal eine Angabe zu Creative Commons-Grad stehen würde, könnten alle Seiten - Nutzer und bildgebende Institution - viel, viel Zeit sparen.

Posted on

9 Archivquellen – Zusammenarbeit mit vielen unterschiedlichen Archiven

< Back to problem stories

In einem größeren Forschungsprojekt arbeite ich mit Quellen ganz unterschiedlicher Provenienz, z.B. aus Zeitungsdatenbanken (Online-Archive von "Der Spiegel", "Die Zeit", aber auch Zeitungen aus dem Ausland; daneben Fernseh- und Rundfunk-Archive, das Bundesarchiv etc. Ich werte Zeitungsartikel, Protokolle von Bundestagsreden, Akten aus verschiedenen Ministerien, Fernsehserien u.v.m. als Quellen aus, und zwar qualitativ. Wie kann ich daraus einen Quellenkorpus machen, der so einheitlich ist, dass er sich irgendwie zur Nachnutzung aufbereiten lässt? Und wie kann ich die Archive, die ja die Rechteinhaber sind, mit ins Boot holen? Meine Idealvorstellung wäre ein E-book, in dem alle Quellenangaben in den Fußnoten "klickbar" sind, d.h. man kommt mit einem Klick zum Original.

Posted on

7 Lizenzen

< Back to problem stories

Als Lehrstuhl einer Hochschule forschen wir auch mit und an Werkzeugen aus dem Bereich der automatisierten Auswertung von Datenbeständen. Ein wesentlicher Teil der Datenbestände sind digitalisierte Textkorpora, die zumeist in einem Textformat, wie beispielsweise XML, vorliegen, die aber für die Analysen in andere Dateiformate konvertiert werden müssen. Einige der Korpora unterlagen und unterliegen einer Lizenzpflicht. Dies bedeutet, sie dürfen nur dann von einer Person benutzt werden, wenn deren Institution (zum Beispiel über die UB) oder sie selbst eine kostenpflichtige Lizenz erworben hat. Die Lizenzen sind meist zeitlich begrenzt.
Um die Analyseergebnisse der automatisierten Auswertung der Textbestände nach den FAIR-Prinzipien langfristig zur Verfügung zu stellen, ist es notwendig, die Rohdaten, also die Korpora selbst, einzubeziehen. Es ist für uns schwer nachvollziehbar, welche praktischen Konsequenzen § 60d Urheberrechtsgesetz, speziell Absatz 3, für die Ausgestaltung dieser Prinzipien bei Textkorpora hat, die einer Lizenzpflicht unterlagen oder noch unterliegen. Einerseits soll das Korpus und dessen Vervielfältigungen nach Abschluss der Forschungsarbeiten gelöscht werden, andererseits darf es von den in den §§ 60e und 60f genannten Institutionen dauerhaft aufbewahrt werden. Zu den in 60f benannten Bildungseinrichtungen gehören laut Definition in § 60a Absatz 4 beispielsweise auch Hochschulen. Nach dieser Lesart dürften die Korpora und deren Vervielfältigungen auf hochschuleigenen Servern dauerhaft gespeichert werden. Das Aufbewahren an sich ermöglicht jedoch noch nicht den Zugang, da dieser nur über eine Bezahlschranke möglich ist. Ohne eine gültige Lizenz darf der Zugang zu den Rohdaten nicht gewährt werden.
Es erscheint insgesamt fragwürdig, wie die Qualität wissenschaftlicher Forschung bei automatisierten Analyseverfahren überprüf- und nachnutzbar gehalten werden kann, wenn ein wesentlicher Bestandteil der Forschung, die Rohdaten selbst, nicht zugänglich gemacht werden darf bzw. bei Nachnutzung durch den Erwerb einer Lizenz erst „hinzugekauft“ werden muss.

 

Task Area

Perspective

Tags

Posted on

6 Archivische Forschungsdaten massenhaft mit zukunftsfähigen Normdaten anreichern

< Back to problem stories

Als Archiv stellen wir massenhaft Erschließungsinformationen zu Archivgut im Sinne von primären Forschungsdaten im Internet bereit. Diese und weitere, noch nicht online veröffentlichte digitale Erschließungsinformationen liegen in sehr großer Zahl und unterschiedlicher Datenqualität vor. Eine Herausforderung ist die nachträgliche Anreicherung mit zukunftsfähigen Normdaten im Interesse einer vernetzten Recherche. Dabei bestehen zwei weisentliche Herausforderungen:
1. Benötigt werden Tools zur nachträglichen, automatisierten Anreicherung von Erschließungsinformationen in Archivinformationssystemen und den daraus zu exportierenden Onlineressourcen.
2. Während für Personen mit der GND ein anerkanntes Normdatensystem bereits institutionenübergreifend anerkannt ist, fehlt hinsichtlich von Geografika, Regional- und Gebietseinheiten noch eine vergleichbare Verbindlichkeit (z.B. GND, Amtliche Gemeindeschlüssel, Georeferenzierung).

Posted on

3 Archiv-Metadaten in XML-Format verfügbar machen

< Back to problem stories

Metadaten in Archivportalen bzw. in den Online-Findmitteln der Archive liegen als strukturierte Daten in den dahinter liegenden Datenbanken. Die Struktur der Metadaten folgt meistens dem internationalen Erschließungsstandard ISAD(G) mit dem dazu korrespondierenden Metadatenschema EAD. Dennoch lassen sich Archiv-Metadaten meistens nicht in strukturierter Form als XML-Datei, bspw. im EAD-Format, herunterladen und weiter verwerten, z.B. in ein Literaturverwaltungsprogramm einfügen: 1. weil die erforderliche Funktion von den Archivportalen/Online-Findmitteln nicht bereit gestellt wird, 2. weil die Literaturprogramme das EAD-Format nicht unterstützen. Auch die denkbare datenbankgestützte Auswertung dieser Metadaten hat entsprechend ihre Grenzen. Derzeit lassen sich in manchen Archivportalen/ Online-Findmitteln die Archiv-Metadaten als PDF-Dokument ausdrucken.
Zielstellung: strukturierte Archiv-Metadaten lassen sich in Literaturverwaltungsprogramme importieren, am besten zusammen mit einem verfügbaren Digitalisat. Erforderlich sind dazu aber nicht nur Metadaten zu dem Objekt selbst, sondern auch die Kontextinformationen sowie die Metadaten zu dem Digitalisat selbst.

Posted on

2 Linked Data ja, aber wie?

< Back to problem stories

Als Forscher an einer fachwissenschaftlichen Einrichtung bin ich an einem kunsthistorischen Projekt beteiligt, das sich mit außereuropäischem Material beschäftigt. Wir möchten gerne Kunstwerke inhaltlich klassifizieren, aber die bestehenden (oft eurozentrischen) Vokabulare (IconClass, Getty) decken unser Material nicht ab. Wir brauchen also ein eigenes Vokabular, das aber möglichst (da, wo es Überschneidungen gibt) Cross-Links zu bestehenden Vokabularen bietet. Dafür steht an unserer Einrichtung keine Software bereit, und die typischen Lösungen (wie z.B. VocBench) sind kompliziert aufzusetzen.
Noch schwieriger wird es bei komplexeren Datenstrukturen, wie z.B. historischen Gazetteers, deren Modell noch etwas komplizierter ist als das eine Thesaurus. Hier bestehen z.B. mit LinkedPlaces gute Referenzformate, aber keine Tools, um komplatible Daten nutzerfreundlich zu erstellen.
Neben dem Editor für die Vokabulare selbst ist es für LinkedData natürlich auch notwendig, stabile URIs zu verwenden. Und auch wenn diese als Identifier nicht unbedingt auf eine tatsächliche Ressource verweisen müssen, ist es doch gute Praxis, dass die URIs auflösen und auf menschen- sowie maschinenlesbare Dokumentation verweisen. Unsere Einrichtung selbst kann dafür nicht die Gewähr der Dauer bieten. Also wäre ein Handle-System sowie ein System zur Generierung von Dokumentation für Vokabularen zusätzlich nützlich.

Posted on

1 Transformation wild gewachsener Datenbestände, nichts ist FAIR

< Back to problem stories

Mein Aufgabenschwerpunkt an einem Lehrstuhl der Geschichtswissenschaften ist die Konzeption unserer digitalen Projekte (vorrangig digitales Publizieren, digitale Wissensvermittlung) sowie die Koordination von deren Umsetzung durch unterschiedliche Teams. Seit Ende 2019 befassen mich die Daten einer vor einigen Jahren begonnenen Erschließung eines umfangreichen und sehr heterogenen Korrespondenzbestandes von Ende des 18. Jh./Anfang des 19. Jh. Ursprüngliches Ziel war, den Materialbestand mit einer ersten Roherschließung der Metadaten zu dokumentieren als Grundlage für eine Antragstellung auf Förderung einer digitalen Edition der Korrespondenzen. Das zu Beginn der Arbeiten vorrangig inhaltliche Interesse und eine stark editorische Sichtweise auf die Korrespondenzen haben Fragen des Forschungsdatenmanagements nicht weitreichend genug berücksichtigt. In der Folge wurden Rohdaten erhoben und in einer für die weitere Datenbe- und -verarbeitung nicht geeigneten Form dokumentiert. Das Ende des Dienstverhältnisses des Hauptbearbeiters führte dazu, dass das ursprüngliche Projektziel des Antrags auf Förderung einer digitalen Edition nur noch mit geringen Bordmitteln von verschiedenen BearbeiterInnen, die etwas Zeit erübrigen konnten, betrieben wurde. Formale Erfassungsstandards wurden nicht mehr konsequent angewendet bzw. nachgehalten und haben am Ende zu einer umfangreichen, aber qualitativ äußerst heterogenen Datenlage geführt. 2019 wurde meinem Vorschlag zugestimmt, das ursprüngliche Projektziel umzudefinieren und anstelle einer digitalen Edition die erhobenen Daten aufgrund ihres Umfangs und Potenzials in Form eines Metadatenkatalogs recherchierbar und nachnutzbar zu machen. Ich habe die Rolle der Datenkuratorin übernommen und in Zusammenarbeit mit der ansässigen Bibliothek, einer digitalen Expertin und wiss. MitarbeiterInnen ein erweitertes Datenmodell entwickelt, habe den ersten Teil der Rohdaten in Excel standardisiert und transformiert für die Übernahme in ein neues Datenbanksystem und koordiniere das Team, das den weiteren wiss. Abgleich der Datensätze bzw. Metadaten am Material vornimmt.

Das alles wäre im Nachhinein deutlich weniger mühsam und ressourcenaufwändig, wären die Rohdaten zumindest in einer nachnutzbaren Struktur dokumentiert gewesen. Aus meiner Sicht sind zwei Dinge unbedingt erforderlich: Projekte, in denen Daten generiert werden, brauchen von Anfang an professionelle Begleitung durch Infrastrukturpartner, die sich auch als Dienstleister der WissenschaftlerInnen verstehen wollen. Wir brauchen AnsprechpartnerInnen im IT-Bereich. Parallel dazu müssen die historisch arbeitenden GeisteswissenschaftlerInnen selbst ausreichende Kompetenzen im Umgang mit Forschungsdaten entwickeln, um überhaupt sprechfähig zu sein: Welche Daten erheben wir, welche Fragen haben wir am Ende an die Daten und welches Datenmodell brauchen wir dafür, welche Datenstandards müssen wir berücksichtigen, um Auswertung und Nachnutzung zu ermöglichen? In welchen zeitlichen Dimensionen bewegen wir uns? Was soll am Ende mit den Daten passieren? Das können und sollen uns InfrastrukturpartnerInnen nicht abnehmen.

Posted on