datapublication

25 Online-Publikation unveröffentlichter Hochschulschriften und anderer Manuskripte

< Back to problem stories

Wenn ich im Zuge meiner Forschung auf unveröffentlichte Arbeiten anderer stoße (Beispiel: eine ungedruckte Dissertation einer Verwandten), wie kann ich für eine dauerhaft zugängliche und zitierfähige Online-Publikation sorgen? Ist die Digibib des Vereins für Computergenealogie dafür geeignet, bzw. wie kann man dafür sorgen, dass sie diesen Status bekommt?

Posted on

24 Familienanzeigen archivieren

< Back to problem stories

Ich verwalte als Privatperson einen großen Bestand von einigen Millionen Familienanzeigen (vor allem Todesanzeigen) aus Tageszeitungen des 20., z.T. auch 19. Jahrhunderts. Die Daten liegen einerseits als Digitalisate, andererseits als partielle Texterfassungen (Name des Verstorbenen, Ort, Datum) vor. Da die in den Anzeigen benannten Hinterbliebenen zu großen Teilen noch leben, greifen für die Weitergabe und Verarbeitung der Daten Datenschutzbestimmungen. Wie kann der Bestand rechtlich sauber für die Forschung bewahrt werden? Ich möchte den Bestand nicht weiter als Privatperson verantworten.

Posted on

23 Selbstentwickelte Tools als Open Source veröffentlichen

< Back to problem stories

Für eine private Website habe ich einen Verwandtschaftsrechner programmiert, der auf den eigenen Datenbestand auf der privaten Seite zugreift und für je 2 beliebige Personen zeigt, wie sie verbunden sind. Wie kann ich dafür sorgen, dass das Tool auch von anderen benutzt werden kann?

Posted on

20 Inhaltsanalyse preußischer Regierungsberichte aus dem Rheinland

< Back to problem stories

In einer kleinen Forschergruppe wollen wir die Berichte der rheinischen Provinzialregierungen an den preußischen König in den ersten Jahrzehnten nach der Annektion untersuchen. Uns interessiert dabei, welche Themen die im Aufbau befindliche Verwaltung hatte, wie sie diese Themen an den König herantrug und ob es dabei unterschiede zu den alten preußischen Provinzialverwaltungen gab. Um die große Textmenge bearbeitbar zu machen und um möglichst unvoreingenommen an die Quellen heranzutreten wollen wir eine Inhaltsanalyse mit einem Topicmodell vornehmen. Das erste Problem, das sich dabei stellt ist natürlich die Digitalisierung großer handschriftlicher Textmengen. Dieses Problem lässt sich mit dem Programm Transkribus jedoch schon sehr gut lösen. Als weiteres Problem erweist sich die Frage, wie die Daten gespeichert werden sollen. Auf der einen Seite sollten für die Berechnung des Topicmodells einzelne Textabschnitte als mit Metadaten (Regierungsbezirk, Jahr, Monat) versehene Variablen vorliegen. Auf der anderen Seite sollten die Daten auch in Ihrer Dokumentenstruktur gespeichert und mit einer XML-TEI Auszeichnung versehen werden, um sie als Editon zu veröffentlichen. Hier braucht es eine flexible Datenbanklösung, die mehrere Zuordnungen erlaubt. Zuletzt stellt sich die Frage, mit welchem Programm das Textmining vorgenommen werden soll. Konventionelle Statistikprogramme wie STATA und R sind dazu in der Lage. Der Zugang zu diesen Programmen stellt aber sicherlich für Viele im Fach eine Hürde da. Hilfreich wäre es ein webbasiertes Tool zu haben, das intuitiv zu bedienen ist. Zwar existieren auch hier schon entsprechende Webseiten (bspw. Voyant-Tools, Lexos). Diese sind aber stärker auf die Literaturwissenschaft ausgerichtet und haben für die historische Arbeit einige Nachteile. So ist die Arbeit mit Metadaten (Zeitinformationen) schwierig, außerdem wird der Arbeitsstand auf Fremdservern gespeichert und eine Dokumentation der einzelnen Arbeitsschritte ist nicht vorgesehen. Eine speziell auf das historische Arbeiten zugeschnittene Lösung, die die hier skizzierten Nachteile umgeht wäre sicherlich hilfreich. Grade auch, um die Methoden des Textminings breit im Fach zu verankern.

Posted on

17 Sonden in die entstehende Konsumgesellschaft: Hamburger Importzolldeklarationen, 1736-1798

< Back to problem stories

Aus Hamburg sind aus den Jahren 1736-1798 für 36 Jahre total 180.000 individuelle Importzolldeklarationen aus dem seeseitigen Handel erhalten. Die Deklarationen enthalten u. a. die Namen der Importkaufleute, Bezeichnungen der verzollten Waren, eine Schätzung von deren Wert, Herkunftsort der Schiffsreise und Datum. Es handelt sich um einen der umfangreichsten und wichtigsten Bestände zur deutschen Handelsgeschichte des 18. Jahrhunderts. Es eignet sich zur Analyse der Anfänge der Konsumgesellschaft in Deutschland, der Verbreitung des Konsums von Kolonialwaren, der aggregierten Entwicklung der deutschen Außenwirtschaft sowie (allerdings nur selektiv) der Aktivitäten individueller Kaufleute. Das Material wurde im Rahmen des Projekts zur Historischen Statistik Deutschlands erhoben und unterschiedlich aggregiert publiziert (Schneider et al. 2001). Um sie analysierbar zu machen, wurden die Daten in eine MS-Access-Datenbank eingebettet, die insbesondere Handelsgüter nach Güterklassen bzw. Herkunftsorte nach Ländern und Regionen zusammenzufassen erlaubt. Die Datenbank zirkuliert informell in verschiedenen Fassungen und hat bisher wenigstens zwei Publikationen zur Grundlage gedient. Das Erkenntnispotential des Korpus ist damit längstens nicht erschöpft. Die problem story kreist damit um die Herausforderung, diese wichtige Datenbank Forscher*innen leicht zugänglich zu machen. Hierzu muss (1) die Datenbank noch weiter geputzt werden, was Aufgabe der damit Arbeitenden (unter Einschluss des Schreibenden) ist. (2) müssen die existierenden Datenbankabfragen zu einem geschlossenen Interface ausgebaut werden, wozu ein gewisser Beratungsbedarf besteht, da die Kompetenz wenigstens des Schreibenden im Bereich der Entwicklung von Datenbankanwendungen begrenzt ist. (3) muss ein Datenarchiv gefunden werden. (GESIS hat die Annahme historischer Forschungsdaten eingestellt.) (4) eignen sich zentrale, aggregierte Zeitreihen für eine historische Statistik. Einschlägig wäre HISTAT, aber GESIS hat die Weiterentwicklung von HISTAT eingestellt. Benötigte Services sind somit: (i) Einschlägiges Datenarchiv; (ii) Unterstützung bei der Aufbereitung einer Datenbank für ein Datenarchiv; (iii) Weiterentwicklung von HISTAT.

Posted on

16 Digital Literacy am Projektstart

< Back to problem stories

An der Akademie der Wissenschaften und der Literatur, Mainz bin ich tätig im Projekt Regesta Imperii und als Projektleiter von DFG-Projekten.
Dabei kommen immer wieder andere DFG-Projekte mit der Bitte auf mich zu, beim digitalen Start zu helfen. Fragen drehen sich z.B. um
Welche Programme für die Datenaufnahme ?
Welche Datenmodellierung kann genutzt werden ?
Wo können die Daten gespeichert werden ?

Wie sieht unsere Datenmodellierung konkret aus ?
Meist finden wir gemeinsam schnell eine Lösung, mit der das Projekt starten kann. Nach einigen Monaten gibt es nochmal ein Treffen um weitere Fragen zu klären.
Eigentlich benötigt jedes DFG-Projekt welches nicht eine eigene IT-Stelle beantragt hat oder keinen Zugriff auf institutionelle Unterstützung hat eine solche Anfangsbetreuung, die auch finanziell vergütet werden sollte.
Vielleicht könnte man einen Anteil des Overheads in Form von Beratungsgutscheinen an die Projekte geben, die diese dann gegen diese Dienstleistung eintauschen könnten.

Posted on

14 Fehlende Angaben, wie Fotos genutzt werden können

< Back to problem stories

Ich leite eine historische Beratung für Autorinnen und Autoren. Daher arbeite ich viel mit Online-Bilddatenbanken aus der ganzen Welt. Gerade bei den deutschen Datenbanken fällt mir auf: Es wird zwar fleißig digitalisiert und ins Netz gestellt. Ob man diese Bilder aber nutzen kann, z.B. in einem Roman, einem Bildband oder einer Dissertation veröffentlichen kann, steht nicht direkt am Bild.
Man muss für jedes Bild einzeln nachfragen. Oft landen die Anfragen an einer anderen Stelle, die die Digitalisierung nicht durchgeführt hat (info). Wenn gleich AM BILD jedesmal eine Angabe zu Creative Commons-Grad stehen würde, könnten alle Seiten - Nutzer und bildgebende Institution - viel, viel Zeit sparen.

Posted on

13 Anreize schaffen für Datenpublikationen?

< Back to problem stories

Als Projektverantwortliche im Bereich "Dateninfrastruktur und Digital Humanities" ist es Teil meiner Aufgabe, aber auch mein Wunsch, meine Kolleginnen und Kollegen beim Erstellen und Veröffentlichen von Datenpublikationen zu ermutigen. Momentan gestaltet sich das vor allem deswegen schwierig, weil wir erstens immer noch nach den richtigen Formaten suchen, aber zweitens auch, weil Anreizstrukturen fehlen. Datenpublikationsformate werden insbesondere in der Geschichtswissenschaft noch nicht mit der gleichen Anerkennung versehen wie traditionelle Formate. Vielleicht würde hier eine Community-weite oder zumindest Community-unterstützte Plattform helfen, solche Anreiz- und Anerkennungsstrulturen zu schaffen. Vielleicht könnte man auch an Workshops oder dergleichen denken.

Posted on

12 FactGrid und das fehlende breitenwirksame Wikibase-Frontend

< Back to problem stories

Wir erfassen mit dem FactGrid Daten und helfen Partnern auf der Plattform. Die Software erweist sich dabei als so attraktiv, dass Mitspieler des In- und Auslands zurzeit von selbst an uns herantreten, um bei uns Datensätze in Wikibase laufen zu lassen.
Unsere zentralen Probleme liegen im Moment in der Bedienung der Software, die für Wikidata ein unmittelbar auf die Dateneingabe und das Datamining ausgerichtetes Interface nutzt.
Verbesserungsbedürftig ist einerseits die Dateneingabe: Es müsste möglich sein, Open Refine serverseitig laufen zu lassen und auf die mitdenkende Software hin zu arbeiten, die noch vor der Eingabe großer Datenmengen auf bereits vorliegende Informationen (etwa bei deckungsgleichen Verwandtschaftsbeziehungen)verweist, und die so die Arbeit mit der vorhandenen Information erleichtert.
Wichtiger noch ist für uns im Moment der Schritt in eine dezidierte Datenpräsentation.
Magnus Manske’s „Reasonator“, Markus Krötzschs „Squid“, zeigen das Potential der Software auf, mit der sich eine Wikibase-Datenbank bis an den Punkt nutzen lässt, an dem sie Wikipedia Konkurrenz macht – mit dem Vorteil, dass dabei plötzlich eine einzige multilingual verwaltete Datenlage in verschiedenen Sprachen nutzbar wird. Es ist dies ein Entwicklungsweg, den Wikimedia nicht prioritär verfolgt und auf dem wir uns derzeit mit Partnern wie der DNB bewegen.
In der bis auf Weiteres misslichen Lage sprechen wir Nutzer derzeit nur sehr provisorisch mit exemplarischen, modifizierbaren Suchangeboten an, von denen aus sie sogleich in die bearbeitbaren Datensätze geleitet werden – so im aktuellen Projekt, das Thüringens Pfarrerbuch bei uns verfügbar macht: https://blog.factgrid.de/archives/1923. Das Ziel sind Nutzeroberflächen wie Uwe Jung sie für die FH-Potsdam im Umgang mit Wikidata erarbeitete (https://blog.factgrid.de/archives/1215).
Hier befinden wir uns in Gesprächen mit Partnern, die auf dieselbe Software setzen sowie mit Wikimedia, mit dem Ziel einer open source Lösung, von der alle Wikibase Plattformen profitieren würden. Die Vernetzungsangebote des NFDI-Prozesses sind dabei von fast noch größerem Interesse als Entwicklungsetats.

Posted on

11 Adaption des IIIF-Standards für Audio-, Video- und 3D-Daten

< Back to problem stories

Die anbieter- und systemunabhängige Nutzung digitaler/digitalisierter Quellen in der eigenen Forschungsumgebung wird durch die IIIF-Standards unterstützt. Als Bibliothek würden wir gerne auch unsere digitalisierten Audio-, Video-, und 3D-Daten ebenso wie die text-/bildbasierten Quellen über IIIF anbieten können. Für eigene großangelegte Standard- und Softwareentwicklungen fehlen aber die Kapazitäten an unserer Einrichtung ohne Entwicklungsabteilung. Wir brauchen einen Rahmen, in dem wir uns mit Anforderungen aktiv in die Standard- und Softwareentwicklung einbringen können und zugleich eine starke Partnereinrichtung, die in der Lage ist diese Arbeiten auch auszuführen.

Posted on