Task area

31 Geo-Referenzierung von Orten und historischen Entitäten

< Back to problem stories

Unsere Arbeitsgruppe führt eine semi-automatische prosopgraphische Auswertung durch, in welcher wir spätmittelalterliche Gelehrtenkarrieren untersuchen. Geeignete Quellen hierfür liegen bereits in digitalisierter Form vor, teilweise sind sie mit TEI oder vergleichbaren Formaten ausgezeichnet. Die Daten sind entweder über eine Schnittstelle abfragbar oder als Data-Dump verfügbar. Innerhalb der entsprechenden Texte werden verschiedene Orte genannt, deren Ortsnamen durch die mittelalterlichen Schreiber der Texte in einer nicht normierten latinisierten Schreibweise aufgezeichnet wurden. Dadurch können wir die genannten Orte aktuell noch nicht automatisch referenzieren. Zur Identifikation der Orte haben wir nach einer georeferenzierte Ortsnamen-Datenbank gesucht, welche die historischen Schreibweisen eines Ortsnamen in lateinischer und deutscher Sprache enthält. Dabei stießen wir auf die Ortsnamen-Datenbank der Monumenta Germaniae Historica (http://www.mgh.de/dmgh/imgh/geo/), die für die darin enthaltenen Orte die entsprechenden Geo-Daten und deren unterschiedlichen lateinischen Schreibweisen bereit stellt. Allerdings mussten wir feststellen, dass die MGH-Datenbank nur einen Bruchteil der in unseren Texten aufgeführten Orte enthält. Zudem stellte sich bei unserer Arbeit heraus, dass die Datenbank die darin enthaltenen Namensformen für Suchanfragen nicht expandiert, d.h. die Suche erfolgt nur in den ausgeschriebenen Namensformen und nicht in Namensformen, die mit einer abweichenden Wortendung angegeben sind. In einem zweiten Schritt wollten wir dann den Teil der durch die MGH-Datenbank referenzierten Orte auf einer Karte abtragen. Dabei mussten wir feststellen, dass es hierfür kein geeignetes historisches Kartenmaterial in digitalisierter Form vorhanden ist. Soweit wir beurteilen können, gibt es keine mit Open Access verfügbaren Karten für Mitteleuropa, welche die unterschiedlichen historische Zeitstufen der Grenzen der weltlichen und kirchlichen Entitäten abbilden. Die meisten Studien nutzen entweder moderne Google Maps-Karten oder Scans von historischen Atlanten.

Posted on

30 Ohne Rechte und Incentives? Probleme der Auswertung und Publikation personenbezogener Daten in der multilingualen Tagebuchforschung

< Back to problem stories

Aus der Praxis meiner Arbeit mit in verschiedenen Ländern verstreuten und in unterschiedlichen Sprachen verfassten historischen Quellen zu einem geschichtspolitisch kontroversen Thema gibt es v.a. drei Problemfelder: Rechte, Erfassung/Auswertung, Nutzung. Auch wenn mir Daten zur wissenschaftlichen Auswertung bereitgestellt werden, haben mir fast alle Rechteinhaber, darunter Archive sowie Privatpersonen, die elektronische Publikation (z.B. auf meinem Forschungsblog) oder die Weitergabe der Daten an Dritte untersagt. Jegliche Publikation der Daten kann daher nur bruchstückhaft bleiben. Dadurch entsteht eine erhebliche Schieflage des Erkenntnisgewinns, da ich nur solche Quellen allgemein zugänglich machen kann, deren Rechteinhaber ein - manchmal zweifelhaftes - Interesse an ihrer Publikation haben. Die vergleichende Auswertung der Daten wird in meinem Fall dadurch erschwert, da ich neben deutsch- und englischsprachigen Quellen auch mit japanisch- und chinesischsprachigem Material arbeite. Mir ist keine technische Infrastruktur bekannt, in der sich z. B. systematische Übersetzungsvergleiche durchführen ließen zwischen Quellen, die in mehreren lateinischen und nicht-lateinischen Schriften vorliegen. Die Schaffung und Bereitstellung solcher Infrastrukturen, die auch nicht-lateinische Schriften berücksichtigt, sind wesentlich für die Integration von Forschungsergebnissen aus den area studies in die Fachdisziplinen. Abschließend stellt sich für mich die Frage, warum ich zeit- und kostenintensiv zusammengetragenes, schwer zugängliches historisches Quellenmaterial ohne „incentives“ anderen Forschern zur Verfügung stellen sollte. Abhilfe könnte eine Übereinkunft schaffen, wonach Erstnutzer oder „Entdecker“ solcher Quellen, die einen erheblichen Beitrag zur Erschließung und Bereitstellung geleistet haben, in Arbeiten anderer Wissenschaftler genannt werden müssen und dies in der Forscher-Community als bedeutsame Forschungsleistung (ähnlich der Grundlagenforschung in Naturwissenschaften) Anerkennung findet. Das geschieht bisher nicht oder nur unzureichend. Stattdessen können sich etablierte Wissenschaftler mit besserem Zugang zu Publikationsoptionen bei der „Grundlagenforschung“ Anderer unbeschränkt bedienen, ohne dass dies als Plagiat geahndet wird, weil es sich um frei zugängliche Primärliteratur handelt. Hier müsste es an der Antrags- oder Publikationsschwelle (Verlage, Forschungsförderorganisationen etc.) einen Mechanismus geben, der dies verhindert und geisteswissenschaftliche Grundlagenforschung honoriert.

Posted on

29 Aufbau einer integrierten Datenbank zu familiären Beziehungen

< Back to problem stories

In unserem familienkundlichen Verein wird seit den 1990er Jahren immer wieder der Wunsch laut, dass eine gemeinsame Familiendatenbank aufgebaut wird, an der alle Mitglieder gleichzeitig mitarbeiten können. Ziel wäre es, dass eine Person jeweils nur einmal in der Datei auftaucht, und dass sowohl die Originalquellen (z.B. Kirchenbücher oder Volkszählungslisten) als auch die Kontaktdaten der Bearbeiter transparent angegeben werden. Grundlage wären nicht die laufenden, sondern die jeweils bereits abgeschlossenen Forschungen, wobei allerdings auch Datenbestände unterhalb der Ebene eines abgeschlossenen Ortsfamilienbuchs genutzt werden sollen. Gesucht werden erstens Verfahren der eindeutigen Identifikation von Personen über Normdaten, zweitens Verfahren und Standards der Datenkuratierung, drittens Techniken der Programmierung von Webinterfaces, die eine niederschwellige Pflege und Abfrage der Daten ermöglichen. Eine andere Variante dieser Problematik stellt sich dort, wo verschiedene regionale Familiendatenbanken bereits existieren und nicht von einem "Schwarm", sondern von Einzelnen verantwortet werden. Einer der beteiligten regionalen Vereine hat z.B. eine Familiendatenbank mit etwa einer halben Million Personendatensätzen erstellt, die ungefähr den Raum eines ganzen Bundeslandes für die Zeit ab ca. 1700 erfasst. Ein anderer Verein strebt an, einen an das niederländische (dort von einem Verbund von Archiven getragene) Portal https://www.wiewaswie.nl/en/ angelehnten Verbund aus bereits publizierten Ortsfamilienbüchern zu schaffen. Ein langfristiges Ziel des Vereins für Computergenealogie besteht darin, die für etwa 800 Orte separat geführten Online-Ortsfamilienbücher mit zusammen über 10 Millionen historischen Personendatensätzen untereinander zu verknüpfen. In jedem Fall stellt die Verknüpfung über Normdaten ein Problem dar, weil personenbezogene Normdaten erst über Verfahren der Record Linkage hergestellt werden müssen. Hier käme es darauf an, dass eine Best Practice zur Konstruktion personenbezogener Normdaten erarbeitet würde.

Posted on

28 Gibt es wissenschaftliche Standards für die Ahnenforschung?

< Back to problem stories

Ich steige als Privatmann gerade in die Ahnenforschung ein. Ich sehe die Ahnenforschung allerdings nicht nur als Selbstbeschäftigung, auch andere sollen etwas von den Forschungsergebnissen (und -Wegen) haben und sie bestmöglich selbst vollständig nachvollziehen können. Gibt es wissenschaftliche Standards die ich anwenden kann, um dies zu garantieren? Könnte das Forschungsdatenmanagement nicht nur die Forschungsdaten managen, sondern über den gesamten Prozess, wie man solche Daten – z.B. eben über die Vorfahren – zusammenstellt, so klar informiert, schult und berät, dass auch Anfänger den verstehen?

Posted on

27 Praxisempfehlung für den digitalen genealogischen Nachlass

< Back to problem stories

Viele Menschen steigen erst nach Abschluss des Arbeitslebens in die familiengeschichtliche Forschung ein und machen sich dann von Anfang an Gedanken darüber, dass ihre Forschertätigkeit endlich ist. Daraus ergibt sich ein starkes Interesse an der Frage, wie man seine Ergebnisse über die eigene Lebensdauer verfügbar hält. Dafür scheinen drei Medientypen geeignet: (a) die Archivierung der Forschungsdaten (wenn nicht auf Papier im Staatsarchiv, dann digital in einem Datenarchiv), (b) die Selbstpublikation der Ergebnisse im Internet oder auch im Druck, (c) die „zitierfähige“ Publikation, wiederum im Internet (mit persistenter URL) oder auch als Verlagspublikation (mit ISBN). Hier stellt sich zunächst die Frage, wie die Forschungsdaten denn sortiert, gestaltet, gekennzeichnet sein müssen, damit sie überhaupt für eine Archivierung in Frage kommen, und ob es einen bestimmten Umfang, eine zeitliche Tiefe oder Qualitätsmaßstäbe gibt, die erreicht werden müssen. Gibt es eine Strategie für klar definierte große Bestände einerseits, weniger strukturierte Sammlungen in einem noch aufzubauenden durchsuchbaren Zufallsfundrepositorium andererseits? Wie geht man damit um, dass bestimmte Datenbestände zum Wegwerfen zu schade, aber zum Veröffentlichen nicht sicher genug erscheinen?

Posted on

26 Wenn ich Forschungsergebnisse auf einer Website veröffentliche, wie ist dann die Langzeitverfügbarkeit zu sichern?

< Back to problem stories

Eine mögliche Strategie der Datensicherung und verbreitung besteht darin, sie auf einer Website selbst zu veröffentlichen und auf dauerhafte Zugänglichkeit z.B. über das Internet Archive zu hoffen. Eine Website scheint die beste Form zu sein, um die Auffindbarkeit zu garantieren - aber wie steht es mit deren Langlebigkeit? Ein Blog scheint die beste Form zu sein, um den Prozesscharakter von Forschung deutlich zu machen – aber wie verhindere ich einerseits, dass Daten, die ich aus guten Gründen (noch) nicht in klassischer Form veröffentlicht habe, von anderen ohne Quellenangabe übernommen oder als sicherer Befund missverstanden werden, und andererseits dass sie dann doch mit der Website für immer gelöscht werden? Kann ein Prozess formal beschrieben werden, der private Websites inhaltlich so erschließt, dass sich aus dieser Erschließung eine Entscheidungsgrundlage für die Webarchivierung (etwa im Rahmen des Webharvesting der DNB) ergibt?

Posted on

25 Online-Publikation unveröffentlichter Hochschulschriften und anderer Manuskripte

< Back to problem stories

Wenn ich im Zuge meiner Forschung auf unveröffentlichte Arbeiten anderer stoße (Beispiel: eine ungedruckte Dissertation einer Verwandten), wie kann ich für eine dauerhaft zugängliche und zitierfähige Online-Publikation sorgen? Ist die Digibib des Vereins für Computergenealogie dafür geeignet, bzw. wie kann man dafür sorgen, dass sie diesen Status bekommt?

Posted on

24 Familienanzeigen archivieren

< Back to problem stories

Ich verwalte als Privatperson einen großen Bestand von einigen Millionen Familienanzeigen (vor allem Todesanzeigen) aus Tageszeitungen des 20., z.T. auch 19. Jahrhunderts. Die Daten liegen einerseits als Digitalisate, andererseits als partielle Texterfassungen (Name des Verstorbenen, Ort, Datum) vor. Da die in den Anzeigen benannten Hinterbliebenen zu großen Teilen noch leben, greifen für die Weitergabe und Verarbeitung der Daten Datenschutzbestimmungen. Wie kann der Bestand rechtlich sauber für die Forschung bewahrt werden? Ich möchte den Bestand nicht weiter als Privatperson verantworten.

Posted on

23 Selbstentwickelte Tools als Open Source veröffentlichen

< Back to problem stories

Für eine private Website habe ich einen Verwandtschaftsrechner programmiert, der auf den eigenen Datenbestand auf der privaten Seite zugreift und für je 2 beliebige Personen zeigt, wie sie verbunden sind. Wie kann ich dafür sorgen, dass das Tool auch von anderen benutzt werden kann?

Posted on

22 Nutzung eines außerhalb der akademischen Forschung entwickelten Standards in der akademischen Forschung

< Back to problem stories

Unser bürgerwissenschaftlicher Verein hat ein Ortsverzeichnis entwickelt, das mit Bezug auf Deutschland und viele andere Länder Ortsnamen (in variierenden Schreibweisen), kirchliche und staatliche Zugehörigkeiten im Zeitverlauf sowie geographische Koordinaten erfasst. Die Abdeckung auf Ebene der Siedlungsplätze (also unterhalb der Gemeinden) beträgt für das späte Kaiserreich bereits etwa 80%. Das Verzeichnis liegt als Open Data vor und ist über einen Webservice abrufbar. Im bürgerwissenschaftlichen Bereich haben wir damit einen Standard gesetzt. Wie können wir erreichen, dass dieses System sich auch im akademischen Bereich als Standard etabliert?

Posted on