Task area

17 Sonden in die entstehende Konsumgesellschaft: Hamburger Importzolldeklarationen, 1736-1798

< Back to problem stories

Aus Hamburg sind aus den Jahren 1736-1798 für 36 Jahre total 180.000 individuelle Importzolldeklarationen aus dem seeseitigen Handel erhalten. Die Deklarationen enthalten u. a. die Namen der Importkaufleute, Bezeichnungen der verzollten Waren, eine Schätzung von deren Wert, Herkunftsort der Schiffsreise und Datum. Es handelt sich um einen der umfangreichsten und wichtigsten Bestände zur deutschen Handelsgeschichte des 18. Jahrhunderts. Es eignet sich zur Analyse der Anfänge der Konsumgesellschaft in Deutschland, der Verbreitung des Konsums von Kolonialwaren, der aggregierten Entwicklung der deutschen Außenwirtschaft sowie (allerdings nur selektiv) der Aktivitäten individueller Kaufleute. Das Material wurde im Rahmen des Projekts zur Historischen Statistik Deutschlands erhoben und unterschiedlich aggregiert publiziert (Schneider et al. 2001). Um sie analysierbar zu machen, wurden die Daten in eine MS-Access-Datenbank eingebettet, die insbesondere Handelsgüter nach Güterklassen bzw. Herkunftsorte nach Ländern und Regionen zusammenzufassen erlaubt. Die Datenbank zirkuliert informell in verschiedenen Fassungen und hat bisher wenigstens zwei Publikationen zur Grundlage gedient. Das Erkenntnispotential des Korpus ist damit längstens nicht erschöpft. Die problem story kreist damit um die Herausforderung, diese wichtige Datenbank Forscher*innen leicht zugänglich zu machen. Hierzu muss (1) die Datenbank noch weiter geputzt werden, was Aufgabe der damit Arbeitenden (unter Einschluss des Schreibenden) ist. (2) müssen die existierenden Datenbankabfragen zu einem geschlossenen Interface ausgebaut werden, wozu ein gewisser Beratungsbedarf besteht, da die Kompetenz wenigstens des Schreibenden im Bereich der Entwicklung von Datenbankanwendungen begrenzt ist. (3) muss ein Datenarchiv gefunden werden. (GESIS hat die Annahme historischer Forschungsdaten eingestellt.) (4) eignen sich zentrale, aggregierte Zeitreihen für eine historische Statistik. Einschlägig wäre HISTAT, aber GESIS hat die Weiterentwicklung von HISTAT eingestellt. Benötigte Services sind somit: (i) Einschlägiges Datenarchiv; (ii) Unterstützung bei der Aufbereitung einer Datenbank für ein Datenarchiv; (iii) Weiterentwicklung von HISTAT.

Posted on

16 Digital Literacy am Projektstart

< Back to problem stories

An der Akademie der Wissenschaften und der Literatur, Mainz bin ich tätig im Projekt Regesta Imperii und als Projektleiter von DFG-Projekten.
Dabei kommen immer wieder andere DFG-Projekte mit der Bitte auf mich zu, beim digitalen Start zu helfen. Fragen drehen sich z.B. um
Welche Programme für die Datenaufnahme ?
Welche Datenmodellierung kann genutzt werden ?
Wo können die Daten gespeichert werden ?

Wie sieht unsere Datenmodellierung konkret aus ?
Meist finden wir gemeinsam schnell eine Lösung, mit der das Projekt starten kann. Nach einigen Monaten gibt es nochmal ein Treffen um weitere Fragen zu klären.
Eigentlich benötigt jedes DFG-Projekt welches nicht eine eigene IT-Stelle beantragt hat oder keinen Zugriff auf institutionelle Unterstützung hat eine solche Anfangsbetreuung, die auch finanziell vergütet werden sollte.
Vielleicht könnte man einen Anteil des Overheads in Form von Beratungsgutscheinen an die Projekte geben, die diese dann gegen diese Dienstleistung eintauschen könnten.

Posted on

15 Markup language for biographical information about "ordinary people"

< Back to problem stories

We are editing 19th century migrant letters that are physically located in German and American archives. In order to be able to reconstruct migration patterns and migrant networks, we would like to mark persons with a unique identifier. Since these are “ordinary people”, we do not find them in existing Authority Files such as GND, LoC or Wikidata. How should we reference the existing biographical information and which markup language should we use so that the biographical information that we retrieve from the letters and from archives can easily be enhanced by future biographical research? Should we transfer our data into the Integrated Authority File (GND) and if yes, how can we do this? Secondly, we would like to store and document all biographical details (baptism, marriage and death records, census records, pension records, emigration records, ship lists) as well as additional information gathered from the letters such as occupation, places of living and family events, contacts between migrants, their families, old and new neighbors, friends and acquaintances, in order to map and visualize the migration and mobility networks. Which service and platform should we use for cooperative research data management and the long-term preservation of our research data? Which digital tools should we use for GIS mapping and network visualization?

Posted on

14 Fehlende Angaben, wie Fotos genutzt werden können

< Back to problem stories

Ich leite eine historische Beratung für Autorinnen und Autoren. Daher arbeite ich viel mit Online-Bilddatenbanken aus der ganzen Welt. Gerade bei den deutschen Datenbanken fällt mir auf: Es wird zwar fleißig digitalisiert und ins Netz gestellt. Ob man diese Bilder aber nutzen kann, z.B. in einem Roman, einem Bildband oder einer Dissertation veröffentlichen kann, steht nicht direkt am Bild.
Man muss für jedes Bild einzeln nachfragen. Oft landen die Anfragen an einer anderen Stelle, die die Digitalisierung nicht durchgeführt hat (info). Wenn gleich AM BILD jedesmal eine Angabe zu Creative Commons-Grad stehen würde, könnten alle Seiten - Nutzer und bildgebende Institution - viel, viel Zeit sparen.

Posted on

13 Anreize schaffen für Datenpublikationen?

< Back to problem stories

Als Projektverantwortliche im Bereich "Dateninfrastruktur und Digital Humanities" ist es Teil meiner Aufgabe, aber auch mein Wunsch, meine Kolleginnen und Kollegen beim Erstellen und Veröffentlichen von Datenpublikationen zu ermutigen. Momentan gestaltet sich das vor allem deswegen schwierig, weil wir erstens immer noch nach den richtigen Formaten suchen, aber zweitens auch, weil Anreizstrukturen fehlen. Datenpublikationsformate werden insbesondere in der Geschichtswissenschaft noch nicht mit der gleichen Anerkennung versehen wie traditionelle Formate. Vielleicht würde hier eine Community-weite oder zumindest Community-unterstützte Plattform helfen, solche Anreiz- und Anerkennungsstrulturen zu schaffen. Vielleicht könnte man auch an Workshops oder dergleichen denken.

Posted on

12 FactGrid und das fehlende breitenwirksame Wikibase-Frontend

< Back to problem stories

Wir erfassen mit dem FactGrid Daten und helfen Partnern auf der Plattform. Die Software erweist sich dabei als so attraktiv, dass Mitspieler des In- und Auslands zurzeit von selbst an uns herantreten, um bei uns Datensätze in Wikibase laufen zu lassen.
Unsere zentralen Probleme liegen im Moment in der Bedienung der Software, die für Wikidata ein unmittelbar auf die Dateneingabe und das Datamining ausgerichtetes Interface nutzt.
Verbesserungsbedürftig ist einerseits die Dateneingabe: Es müsste möglich sein, Open Refine serverseitig laufen zu lassen und auf die mitdenkende Software hin zu arbeiten, die noch vor der Eingabe großer Datenmengen auf bereits vorliegende Informationen (etwa bei deckungsgleichen Verwandtschaftsbeziehungen)verweist, und die so die Arbeit mit der vorhandenen Information erleichtert.
Wichtiger noch ist für uns im Moment der Schritt in eine dezidierte Datenpräsentation.
Magnus Manske’s „Reasonator“, Markus Krötzschs „Squid“, zeigen das Potential der Software auf, mit der sich eine Wikibase-Datenbank bis an den Punkt nutzen lässt, an dem sie Wikipedia Konkurrenz macht – mit dem Vorteil, dass dabei plötzlich eine einzige multilingual verwaltete Datenlage in verschiedenen Sprachen nutzbar wird. Es ist dies ein Entwicklungsweg, den Wikimedia nicht prioritär verfolgt und auf dem wir uns derzeit mit Partnern wie der DNB bewegen.
In der bis auf Weiteres misslichen Lage sprechen wir Nutzer derzeit nur sehr provisorisch mit exemplarischen, modifizierbaren Suchangeboten an, von denen aus sie sogleich in die bearbeitbaren Datensätze geleitet werden – so im aktuellen Projekt, das Thüringens Pfarrerbuch bei uns verfügbar macht: https://blog.factgrid.de/archives/1923. Das Ziel sind Nutzeroberflächen wie Uwe Jung sie für die FH-Potsdam im Umgang mit Wikidata erarbeitete (https://blog.factgrid.de/archives/1215).
Hier befinden wir uns in Gesprächen mit Partnern, die auf dieselbe Software setzen sowie mit Wikimedia, mit dem Ziel einer open source Lösung, von der alle Wikibase Plattformen profitieren würden. Die Vernetzungsangebote des NFDI-Prozesses sind dabei von fast noch größerem Interesse als Entwicklungsetats.

Posted on

11 Adaption des IIIF-Standards für Audio-, Video- und 3D-Daten

< Back to problem stories

Die anbieter- und systemunabhängige Nutzung digitaler/digitalisierter Quellen in der eigenen Forschungsumgebung wird durch die IIIF-Standards unterstützt. Als Bibliothek würden wir gerne auch unsere digitalisierten Audio-, Video-, und 3D-Daten ebenso wie die text-/bildbasierten Quellen über IIIF anbieten können. Für eigene großangelegte Standard- und Softwareentwicklungen fehlen aber die Kapazitäten an unserer Einrichtung ohne Entwicklungsabteilung. Wir brauchen einen Rahmen, in dem wir uns mit Anforderungen aktiv in die Standard- und Softwareentwicklung einbringen können und zugleich eine starke Partnereinrichtung, die in der Lage ist diese Arbeiten auch auszuführen.

Posted on

10 Erstellung und Mapping von Referenzvokabularen

< Back to problem stories

Als Spezialbibliothek erzeugen wir mit OCR Volltexte unserer digitalisierten Quellen für die Forschung. Mit digitalisierten und auf Lemma-Ebene erschlossenen Fachlexika (19. Jh) verfügen wir über zeitspezifisches Vokabular. Bislang fehlt es an Kapazitäten, dieses Vokabular als Gazetteer oder Ontologie aufzubereiten und für die automatische Analyse der Volltexte zur Verfügung zu stellen, also Vokabulare als Forschungsdateninfrastrukturleistung zu entwickeln. Weder für die Infrastrukureinrichtung (Bibliothek) noch für Wissenschaftler*innen existieren günstige Rahmenbedingungen (Finanzierung, wissenschaftliche Anerkennung) für solche fachlich spezialisierte Infrastrukturleistungen an der Schnittstelle zwischen historischer Subdisziplin, Informationswissenschaft und Data Science.

Posted on

9 Archivquellen – Zusammenarbeit mit vielen unterschiedlichen Archiven

< Back to problem stories

In einem größeren Forschungsprojekt arbeite ich mit Quellen ganz unterschiedlicher Provenienz, z.B. aus Zeitungsdatenbanken (Online-Archive von "Der Spiegel", "Die Zeit", aber auch Zeitungen aus dem Ausland; daneben Fernseh- und Rundfunk-Archive, das Bundesarchiv etc. Ich werte Zeitungsartikel, Protokolle von Bundestagsreden, Akten aus verschiedenen Ministerien, Fernsehserien u.v.m. als Quellen aus, und zwar qualitativ. Wie kann ich daraus einen Quellenkorpus machen, der so einheitlich ist, dass er sich irgendwie zur Nachnutzung aufbereiten lässt? Und wie kann ich die Archive, die ja die Rechteinhaber sind, mit ins Boot holen? Meine Idealvorstellung wäre ein E-book, in dem alle Quellenangaben in den Fußnoten "klickbar" sind, d.h. man kommt mit einem Klick zum Original.

Posted on

7 Lizenzen

< Back to problem stories

Als Lehrstuhl einer Hochschule forschen wir auch mit und an Werkzeugen aus dem Bereich der automatisierten Auswertung von Datenbeständen. Ein wesentlicher Teil der Datenbestände sind digitalisierte Textkorpora, die zumeist in einem Textformat, wie beispielsweise XML, vorliegen, die aber für die Analysen in andere Dateiformate konvertiert werden müssen. Einige der Korpora unterlagen und unterliegen einer Lizenzpflicht. Dies bedeutet, sie dürfen nur dann von einer Person benutzt werden, wenn deren Institution (zum Beispiel über die UB) oder sie selbst eine kostenpflichtige Lizenz erworben hat. Die Lizenzen sind meist zeitlich begrenzt.
Um die Analyseergebnisse der automatisierten Auswertung der Textbestände nach den FAIR-Prinzipien langfristig zur Verfügung zu stellen, ist es notwendig, die Rohdaten, also die Korpora selbst, einzubeziehen. Es ist für uns schwer nachvollziehbar, welche praktischen Konsequenzen § 60d Urheberrechtsgesetz, speziell Absatz 3, für die Ausgestaltung dieser Prinzipien bei Textkorpora hat, die einer Lizenzpflicht unterlagen oder noch unterliegen. Einerseits soll das Korpus und dessen Vervielfältigungen nach Abschluss der Forschungsarbeiten gelöscht werden, andererseits darf es von den in den §§ 60e und 60f genannten Institutionen dauerhaft aufbewahrt werden. Zu den in 60f benannten Bildungseinrichtungen gehören laut Definition in § 60a Absatz 4 beispielsweise auch Hochschulen. Nach dieser Lesart dürften die Korpora und deren Vervielfältigungen auf hochschuleigenen Servern dauerhaft gespeichert werden. Das Aufbewahren an sich ermöglicht jedoch noch nicht den Zugang, da dieser nur über eine Bezahlschranke möglich ist. Ohne eine gültige Lizenz darf der Zugang zu den Rohdaten nicht gewährt werden.
Es erscheint insgesamt fragwürdig, wie die Qualität wissenschaftlicher Forschung bei automatisierten Analyseverfahren überprüf- und nachnutzbar gehalten werden kann, wenn ein wesentlicher Bestandteil der Forschung, die Rohdaten selbst, nicht zugänglich gemacht werden darf bzw. bei Nachnutzung durch den Erwerb einer Lizenz erst „hinzugekauft“ werden muss.

 

Task Area

Perspective

Tags

Posted on