Task area

27 Praxisempfehlung für den digitalen genealogischen Nachlass

< Back to problem stories

Viele Menschen steigen erst nach Abschluss des Arbeitslebens in die familiengeschichtliche Forschung ein und machen sich dann von Anfang an Gedanken darüber, dass ihre Forschertätigkeit endlich ist. Daraus ergibt sich ein starkes Interesse an der Frage, wie man seine Ergebnisse über die eigene Lebensdauer verfügbar hält. Dafür scheinen drei Medientypen geeignet: (a) die Archivierung der Forschungsdaten (wenn nicht auf Papier im Staatsarchiv, dann digital in einem Datenarchiv), (b) die Selbstpublikation der Ergebnisse im Internet oder auch im Druck, (c) die „zitierfähige“ Publikation, wiederum im Internet (mit persistenter URL) oder auch als Verlagspublikation (mit ISBN). Hier stellt sich zunächst die Frage, wie die Forschungsdaten denn sortiert, gestaltet, gekennzeichnet sein müssen, damit sie überhaupt für eine Archivierung in Frage kommen, und ob es einen bestimmten Umfang, eine zeitliche Tiefe oder Qualitätsmaßstäbe gibt, die erreicht werden müssen. Gibt es eine Strategie für klar definierte große Bestände einerseits, weniger strukturierte Sammlungen in einem noch aufzubauenden durchsuchbaren Zufallsfundrepositorium andererseits? Wie geht man damit um, dass bestimmte Datenbestände zum Wegwerfen zu schade, aber zum Veröffentlichen nicht sicher genug erscheinen?

Posted on

26 Wenn ich Forschungsergebnisse auf einer Website veröffentliche, wie ist dann die Langzeitverfügbarkeit zu sichern?

< Back to problem stories

Eine mögliche Strategie der Datensicherung und verbreitung besteht darin, sie auf einer Website selbst zu veröffentlichen und auf dauerhafte Zugänglichkeit z.B. über das Internet Archive zu hoffen. Eine Website scheint die beste Form zu sein, um die Auffindbarkeit zu garantieren - aber wie steht es mit deren Langlebigkeit? Ein Blog scheint die beste Form zu sein, um den Prozesscharakter von Forschung deutlich zu machen – aber wie verhindere ich einerseits, dass Daten, die ich aus guten Gründen (noch) nicht in klassischer Form veröffentlicht habe, von anderen ohne Quellenangabe übernommen oder als sicherer Befund missverstanden werden, und andererseits dass sie dann doch mit der Website für immer gelöscht werden? Kann ein Prozess formal beschrieben werden, der private Websites inhaltlich so erschließt, dass sich aus dieser Erschließung eine Entscheidungsgrundlage für die Webarchivierung (etwa im Rahmen des Webharvesting der DNB) ergibt?

Posted on

25 Online-Publikation unveröffentlichter Hochschulschriften und anderer Manuskripte

< Back to problem stories

Wenn ich im Zuge meiner Forschung auf unveröffentlichte Arbeiten anderer stoße (Beispiel: eine ungedruckte Dissertation einer Verwandten), wie kann ich für eine dauerhaft zugängliche und zitierfähige Online-Publikation sorgen? Ist die Digibib des Vereins für Computergenealogie dafür geeignet, bzw. wie kann man dafür sorgen, dass sie diesen Status bekommt?

Posted on

24 Familienanzeigen archivieren

< Back to problem stories

Ich verwalte als Privatperson einen großen Bestand von einigen Millionen Familienanzeigen (vor allem Todesanzeigen) aus Tageszeitungen des 20., z.T. auch 19. Jahrhunderts. Die Daten liegen einerseits als Digitalisate, andererseits als partielle Texterfassungen (Name des Verstorbenen, Ort, Datum) vor. Da die in den Anzeigen benannten Hinterbliebenen zu großen Teilen noch leben, greifen für die Weitergabe und Verarbeitung der Daten Datenschutzbestimmungen. Wie kann der Bestand rechtlich sauber für die Forschung bewahrt werden? Ich möchte den Bestand nicht weiter als Privatperson verantworten.

Posted on

23 Selbstentwickelte Tools als Open Source veröffentlichen

< Back to problem stories

Für eine private Website habe ich einen Verwandtschaftsrechner programmiert, der auf den eigenen Datenbestand auf der privaten Seite zugreift und für je 2 beliebige Personen zeigt, wie sie verbunden sind. Wie kann ich dafür sorgen, dass das Tool auch von anderen benutzt werden kann?

Posted on

22 Nutzung eines außerhalb der akademischen Forschung entwickelten Standards in der akademischen Forschung

< Back to problem stories

Unser bürgerwissenschaftlicher Verein hat ein Ortsverzeichnis entwickelt, das mit Bezug auf Deutschland und viele andere Länder Ortsnamen (in variierenden Schreibweisen), kirchliche und staatliche Zugehörigkeiten im Zeitverlauf sowie geographische Koordinaten erfasst. Die Abdeckung auf Ebene der Siedlungsplätze (also unterhalb der Gemeinden) beträgt für das späte Kaiserreich bereits etwa 80%. Das Verzeichnis liegt als Open Data vor und ist über einen Webservice abrufbar. Im bürgerwissenschaftlichen Bereich haben wir damit einen Standard gesetzt. Wie können wir erreichen, dass dieses System sich auch im akademischen Bereich als Standard etabliert?

Posted on

21 Georeferenzierung innovativer Regionen in den deutschen Staaten

< Back to problem stories

In einer Forschergruppe erheben wir Informationen zu den in den Deutschen Staaten erteilten Patenten im Zeitraum 1840-1877. Die Daten erhalten reichhaltige Informationen zur patentierten Technologie, den Berufen der Patentinhaber und deren Wohnorten. Letztere ermöglichen eine Landkarte innovativer Orte/Regionen über einen langen Zeitraum zu zeichnen und beispielsweise Fragen der Persistenz zu adressieren. Als Blocker erweist sich dabei, dass wir uns mühsam die Geodaten der erfassten Orte beschaffen müssen, erschwerend kommt außerdem hinzu das viele kleine Orte mittlerweile eingemeindet wurden oder - in den östlichen preußischen Provinzen - Ortsnamen gewechselt haben. Eine historische Datenbank, die Gebietsveränderungen über die Zeit nachvollzieht und den Orten Geodaten zuordnet wäre hier sehr hilfreich.

Posted on

20 Inhaltsanalyse preußischer Regierungsberichte aus dem Rheinland

< Back to problem stories

In einer kleinen Forschergruppe wollen wir die Berichte der rheinischen Provinzialregierungen an den preußischen König in den ersten Jahrzehnten nach der Annektion untersuchen. Uns interessiert dabei, welche Themen die im Aufbau befindliche Verwaltung hatte, wie sie diese Themen an den König herantrug und ob es dabei unterschiede zu den alten preußischen Provinzialverwaltungen gab. Um die große Textmenge bearbeitbar zu machen und um möglichst unvoreingenommen an die Quellen heranzutreten wollen wir eine Inhaltsanalyse mit einem Topicmodell vornehmen. Das erste Problem, das sich dabei stellt ist natürlich die Digitalisierung großer handschriftlicher Textmengen. Dieses Problem lässt sich mit dem Programm Transkribus jedoch schon sehr gut lösen. Als weiteres Problem erweist sich die Frage, wie die Daten gespeichert werden sollen. Auf der einen Seite sollten für die Berechnung des Topicmodells einzelne Textabschnitte als mit Metadaten (Regierungsbezirk, Jahr, Monat) versehene Variablen vorliegen. Auf der anderen Seite sollten die Daten auch in Ihrer Dokumentenstruktur gespeichert und mit einer XML-TEI Auszeichnung versehen werden, um sie als Editon zu veröffentlichen. Hier braucht es eine flexible Datenbanklösung, die mehrere Zuordnungen erlaubt. Zuletzt stellt sich die Frage, mit welchem Programm das Textmining vorgenommen werden soll. Konventionelle Statistikprogramme wie STATA und R sind dazu in der Lage. Der Zugang zu diesen Programmen stellt aber sicherlich für Viele im Fach eine Hürde da. Hilfreich wäre es ein webbasiertes Tool zu haben, das intuitiv zu bedienen ist. Zwar existieren auch hier schon entsprechende Webseiten (bspw. Voyant-Tools, Lexos). Diese sind aber stärker auf die Literaturwissenschaft ausgerichtet und haben für die historische Arbeit einige Nachteile. So ist die Arbeit mit Metadaten (Zeitinformationen) schwierig, außerdem wird der Arbeitsstand auf Fremdservern gespeichert und eine Dokumentation der einzelnen Arbeitsschritte ist nicht vorgesehen. Eine speziell auf das historische Arbeiten zugeschnittene Lösung, die die hier skizzierten Nachteile umgeht wäre sicherlich hilfreich. Grade auch, um die Methoden des Textminings breit im Fach zu verankern.

Posted on

19 Digitale Quellenkritik bedenken

< Back to problem stories

Vor dem Hintergrund meiner Erfahrungen als Hochschullehrerin scheint es mir so zu sein, dass die Geschichtswissenschaften digitale Ressourcen noch kaum als neuen und auch relevanten Lehrinhalt etabliert haben. Das bringt auch mit sich, dass die Quellenkritik bspw. zu digitalisierten und "born digital" Quellen noch zu wenig in der Fachkultur verankert ist. Das bringt Probleme für die Lehre mit sich, wenn es darum geht, Studierenden die Komplexität der digitalen Quellenkritik zu vermitteln, Fragen von Authentizität, Qualität usw. zu diskutieren. Da hilft der reine Bezug auf formale Standards nicht viel weiter. Es braucht einen im Fach verankerten, kritischen Diskurs. Das schließt auch ein viel aktiveres Rezensionswesen ein, als dies bspw. für digitale Quellensammlungen (auch Forschungsdatenpublikationen) bislang der Fall ist. Aber vermutlich müsste das Fach dann auch über die Reputation von digitalen Publikationen und den Aufwand, diese adäquat zu besprechen, diskutieren.

Posted on

18 Erfassung, Geo-Lokalisierung und Visualisierung von handschriftlich verfassten Massendaten

< Back to problem stories

Seit einiger Zeit arbeite ich mit einer kleinen Gruppe an der Zusammenstellung von Glockengussdaten. Dabei handelt es sich um Informationen, die 1940/41 anlässlich der bevorstehenden Einschmelzung der Glocken auf Karteikarten gesammelt wurden, insgesamt etwa 20.000. Für uns von Interesse sind Standort der Glocke (1940/41) und Zeitpunkt des Glockengusses (z.T. zurück bis ins 11. Jh.). Da Glocken fast nie den Standort wechseln, soll im Endergebnis eine Art dynamische Heatmap über die Jahrhunderte gezeigt werden, wann wo besonders viele oder wenig Glocken gegossen wurden. In Ermangelung wirtschaftsstatistischer Daten wäre das eine Art Proxy-Variable für wirtschaftliche Konjunkturen (das ist jetzt alles sehr grob vereinfacht). Alle Karteikarten liegen in digitalisierter Form vor. Unser erstes Problem betrifft die Übertragung der relevanten Daten (v.a. Standort und Glockengussdatum) von der handgeschriebenen Karteikarte in eine Tabelle. Wo finden wir Informationen darüber, welche Software sich für das Einlesen relativ standardisierter, aber eben handgeschriebener Daten eignet? Wieviel Nachkorrekturen sind ungefähr nötig? Um zweitens eine Glocke mit vertretbarem Aufwand georeferenzieren zu können, benötigen wir eine Zuordnung des Ortsnamens von 1940/41 zu einer Geo-Position. Wo finden wir eine Übersicht über entsprechende Datenbanken? Erschwerend kommt hinzu, dass 1940/41 selbständige Gemeinden heute nur noch Stadtteile oder unselbständige Teilgemeinden sind. Drittens schließlich stellt sich die Frage der Visualisierung. Die politischen Grenzen haben sich vom 11. Jahrhundert bis 1941 immer wieder geändert. Gibt es historische Karten, die es erlauben würden, auf der dynamischen heatmap die korrekten jeweiligen Grenzverläufe zu visualisieren (etwa in 50-Jahres-Abständen)?

Posted on