Task area

70 Sozialdaten als Quellen der Zeitgeschichte

< Back to problem stories

Im Rahmen eines geförderten Projekts beteiligt sich das DHI London daran, Richtlinien für eine von zeithistorischen ForscherInnen dringend benötigte Infrastruktur zur Erfassung, Langzeitarchivierung, Zugänglichkeit und Auswertung neuartiger Datenbestände (sogenannter „Sozialdaten“) aufzubauen. Bei Sozialdaten handelt es sich um die seit der 2. Hälfte des 20. Jahrhunderts zunehmend erzeugten Datensammlungen einerseits staatlicher Behörden, andererseits (im breitesten Sinne) sozialwissenschaftlicher Forschungen. Dies sind heterogene, oft fragmentarisch überlieferte, quantitative und qualitative Daten. Ziel der laufenden Machbarkeitsstudie ist, vorhandene Sozialdatenbestände zu evaluieren, die Bedarfe zeithistorischer Forschung zu erfassen und Umsetzungsmodelle für den Aufbau einer solchen Forschungsdateninfrastruktur herauszuarbeiten und in der Fachcommunity breit zu verankern. Die Forschungsinfrastruktur soll unter anderem zum Erreichen folgender Ziele beitragen: • Sozialdaten sollen als historische Quellen erschlossen und langzeitarchiviert werden können; • diese Datenbestände sollen für die historische Forschung sichtbar dokumentiert und zentral recherchierbar sein; • Metadatenformate zur Kontextualisierung sollen bereitgestellt werden; • es sollen fortlaufend Tools zur optimalen Nutzung der Sozialdaten gemäß den historischen Forschungsinteressen entwickelt und betreut werden; • Beratungs- und Schulungsangebote zu Sozialdaten sollen angeboten werden; • Bedingungen einer rechtskonformen Nachnutzung von Sozialdaten in Bezug auf Datenschutz, Nutzungsbedingungen und Eigentum an den Daten sollen erkundet werden; • Plattformen für die Kommunikation zwischen DatennutzerInnen und DatenhalterInnen sowie zwischen sozial- und geschichtswissenschaftlichen Forschenden sollen entstehen; • die Verknüpfung mit anderen nationalen und internationalen Infrastrukturen gleichen Typs soll hergestellt werden, um mittel- bzw. langfristig internationale Forschungsinfrastrukturen aufbauen zu können. Die Forschenden stoßen auf folgende Probleme: • stark fragmentierte Datenbestände; • Fehlen einer leicht auffindbaren und aussagekräftigen Dokumentation der Daten (beispielsweise zum Archivierungsort); • Fehlen einheitlicher Standards zum Kuratieren zeitgeschichtlicher Daten, etwa von Interviews; • rechtliche Unklarheiten, etwa zu Datenschutz, Urheberrecht, Anonymisierung; • hohe Hürden für HistorikerInnen zur Forschung mit Sozialdaten, da frei verfügbare Sozialdatenbestände fehlen und die statistischen Kenntnisse für deren Auswertung nicht in den historischen Curricula der Universitäten verankert sind; • Nichtberücksichtigung von Schnittstellen zu sozialwissenschaftlichen Infrastrukturen und Erschließungstechniken beim bisherigen Aufbau digitaler geisteswissenschaftlicher Forschungsinfrastrukturen.

Posted on

69 Wie lassen sich die Bestände unseres Forschungsarchivs zeitgemäß erschließen?

< Back to problem stories

Unser Spezialarchiv, das Teil einer außeruniversitären Forschungseinrichtung ist, befasst sich mit der Bewahrung historischen Materials institutioneller wie privater Herkunft und muss daher frühere Konzepte der Strukturierung physisch vorhandener Bestände und von Wissen (Behördenhierarchien etc.) nachvollziehen. Zugleich müssen wir bei der Erschließung und Digitalisierung versuchen vorwegzunehmen, was für künftige Nutzer*innen interessant sein wird, und eine entsprechende Aufbereitung des Vorhandenen ermöglichen oder zumindest nicht verhindern. Darüber hinaus befinden wir uns in einer größeren technischen und organisatorischen Umbruchphase und stehen dabei unter anderem vor der Frage, welche Erschließungsformen zukunftsträchtig und arbeitsökonomisch sind: freie Schlagworte oder kontrollierte Vokabulare? Hierarchien oder Ontologien/Wissensnetzwerke?

Posted on

68 Datenmigration

< Back to problem stories

Ich bin Wissenschaftler*in und möchte einen aus unterschiedlichen Quellen aggregierten Datenbestand für Fragestellungen nutzen, die ich z.B. mit Hilfe von Methoden aus dem Bereich des Textmining oder der Netzwerkanalyse beantworten könnte. Anschließend möchte ich die Ergebnisse so publizieren, dass sie von anderen Wissenschaftler*innen nachvollzogen und reproduziert werden können. Die Ausgangsdaten liegen in unterschiedlichen, fachspezifischen (teils auch älteren, heute nicht mehr gebräuchlichen) Datenformaten/Versionen vor (Plaintext, Word, Indesign, Tustep, verschiedene XML-Notationen, etc.). Mir stellen sich folgende Fragen: Wie lassen sich die Daten in ein für meine Fragestellung geeignetes Format transformieren? Gibt es einen (Web)Service für so etwas? Welches ist ein geeignetes Format für die Publikation der Ergebnisse? Wie kann ich sicherstellen, dass die Werkzeuge und Algorithmen, die ich für die Analyse benutzt habe, auch für weitere Generationen von Forschenden noch auffindbar sind und meine Ergebnisse reproduziert werden können?

Posted on

67 Nicht nur Daten, sondern auch Workflows

< Back to problem stories

Bei der Aufbereitung, Auswertung und Publikation von Forschungsdaten gibt es wiederkehrende Bearbeitungsschritte, die im Detail aber auch immer wieder leicht variieren können. Beispiel: Ich möchte meine Daten mit Hilfe von Named-Entity Recognition (NER)-Methoden semantisch anreichern. Das in einer Onlinedokumentation beschriebene Verfahren lässt sich jedoch nicht auf die Sprache meiner Quellen oder den für mich relevanten historischen Kontext anwenden. Gibt es ein einfach zu bedienendes Repositorium, in dem Wissenschaftler*innen ihre beispielhaften use-cases und Lösungsvorschläge publizieren können, so dass sie von anderen Wissenschaftlern nachgenutzt und gegebenenfalls um alternative Vorgehensweisen ergänzt werden können?

Posted on

66 Nachwuchsförderung / Digitale Edition

< Back to problem stories

Ich bin Nachwuchswissenschaftler*in und möchte das innerhalb meiner Qualifizierungsarbeit verwendete Quellenkorpus veröffentlichen. Die Daten liegen als TEI-XML vor. Neben der Veröffentlichung der Rohdaten soll aber auch eine Digitale Edition entstehen. Diese soll Basisfunktionen wie (parallele) Textansichten (Transkription, Kommentierter Text, Leseversion, Übersetzung, archivalische Vorlage in Form von Bilddigitalisaten) sowie die Erschließungen über Personen, Orte, Institutionen, Ereignisse und Schlagworte ermöglichen. Darüber hinaus möchte ich den im Datenkorpus auftretenden Personenkreis und seine Interaktionsnetzwerke grafisch visualisieren. Ich bin zwar technisch einigermaßen versiert, dennoch habe ich nicht das notwendige Knowhow, ein solches Projekt umzusetzen. Da ich weder fest an einer Forschungsinstitution angestellt bin noch über eine Drittmittelförderung verfüge, fehlen mir die Mittel für die technische Umsetzung wie auch für das anschließende langfristige Hosting der Edition.

Posted on

65 Normdaten

< Back to problem stories

Ich bin Mediävist*in und habe zahlreiche in meinen Quellen genannte Personen, Orte und Institutionen identifizieren können. Nun möchte ich diese Ergebnisse einem breiteren Fachpublikum zur Verfügung stellen und damit vermeiden, dass eine solche zeitintensive Forschungstätigkeit immer wieder neu betrieben werden muss. Für diesen speziellen Datenbestand decken die derzeitig einschlägigen Normdatenrepositorien und -services wie z.B. Wikidata jedoch nur einen Bruchteil meines Bedarfes ab. Nur die wenigsten Personen lassen sich z.B. über die GND identifizieren, kleinere Ortschaften tauchen in den Gazeteers kaum auf, zudem gibt es kein normiertes Vokabular mittelalterlicher Institutionen. Allgemein fehlt es an Normdatenlösungen für meinen Fachbereich und Möglichkeiten, die Daten im Sinne des Semantic Web auf entsprechenden Plattformen als Linked Open Data (LOD) veröffentlichen zu können.

Posted on

64 Big Data: digitalisierte Zeitungen

< Back to problem stories

Ich möchte einen großen Datensatz von digitalisierten Zeitungen analysieren. Mein Forschungsvorhaben soll die Volltexte im Hinblick auf Veränderungen thematischer Schwerpunkte in der Berichterstattung untersuchen und darüber hinaus auch eine Analyse des verwendeten Bildmaterials beinhalten. Die Daten sollen von verschiedenen Archiv- und Bibliotheksservern aggregiert werden. Die Datenmenge ist für meinen lokalen Rechner zu groß, außerdem sind die Algorithmen aus dem Bereich des maschinellen Lernens, die ich für die Analyse verwenden möchte, sehr rechenintensiv. Wo finde ich eine Institution, die mein Vorhaben mit der notwendigen Hardwareausstattung und Rechenleistung unterstützen kann?

Posted on

63 Forschungssoftware

< Back to problem stories

Wesentlicher Kern der Digital Humanities ist die Entwicklung und Erforschung digitaler Methoden zur Beantwortung geisteswissenschaftlicher Fragestellungen. Softwareentwicklung stellt in diesem Zusammenhang einen zentralen Bestandteil der Forschungspraxis dar. Nicht selten ist dabei die Entwicklung eines Algorithmus, einer Schnittstelle oder eines Softwarepaketes die eigentliche wissenschaftliche Leistung. Forschungssoftware entsteht in einem komplexen, kreativen, kombinatorischen und oft kollaborativen Prozess, der durch zahlreiche Abhängigkeiten zu anderen Ressourcen und Softwarekomponenten gekennzeichnet ist. Im Gegensatz zu klassischen Forschungsdaten ist der Lebenszyklus von Forschungssoftware wesentlich kürzer und weitaus anfälliger für „äußere Einflüsse“. Zum einen wird Forschungssoftware häufig nur zur kurzfristigen Erzeugung oder Verifikation von Forschungsergebnissen erstellt, zum anderen leidet sie unter der oft begrenzten Förderdauer von Projekten. Themen wie das Überarbeiten von Quellcode, um eine bessere Wartbarkeit zu erzielen, oder das Erstellen von Dokumentationen und Tutorials werden aus Zeitgründen häufig nicht in ausreichendem Maße berücksichtigt. Zudem fallen bei Auslauf der Projektmittel die Softwareentwickler*innen als notwendige technische Expert*innen weg, so dass die Software nicht mehr gepflegt wird und schnell veraltet. Als spezielle Art von Forschungsdaten stellt Software besondere Herausforderungen an den Entwicklungsprozess und an ein nachhaltiges Datenmanagement. Die Anerkennung von Software als Forschungsergebnis sowie die Schaffung institutioneller Strukturen, die Softwareentwickler*innen verlässliche Karrierewege ermöglichen und nicht zuletzt die Integration von Software in nachhaltige Forschungsdateninfrastrukturen würden maßgeblich zu einer qualitativ besseren Forschungspraxis beitragen.

Posted on

62 Ortsverteilte Erfassung und virtuelle Präsentation nicht lateinschriftlicher Musikquellen + Digitale und analoge Edition

< Back to problem stories

Eine Gruppe von Forschenden untersucht im Rahmen eines Drittmittelprojekts orientalische Musik des 19. Jahrhunderts. Die Musikstücke liegen in analoger Form in verschiedenen Handschriften und Drucken vor, wobei teilweise unterschiedliche Quellen für ein und dasselbe Werk existieren. Die Quellen befinden sich an verschiedenen Standorten im nicht europäischen Ausland. Das Material weicht sowohl von sprachlichen als auch musikalischen Standards ab: in den Handschriften und Drucken mischen sich unterschiedliche nicht lateinische Sprachen und Schriftzeichen (mit einigen historischen Sonderzeichen), die historische Musiknotation entspricht ebenfalls nicht dem westeuropäischen Notationsstandard. Die Forschenden möchten einen einschlägigen Quellenkatalog aufbauen und im Internet zugänglich machen. Dabei stehen sie vor dem Problem, ein geeignetes technisches System zu finden, das die spezifischen sprachlichen und musikwissenschaftlichen Anforderungen der Quellen erfüllt. Zudem fragen sie sich, welche Metadaten dafür notwendig sind und wie man diese standardisiert in mehreren Sprachen und Schriftsystemen ortsverteilt erfassen und darstellen kann. Ferner stellt sich die Frage, wie man den Quellenkatalog langfristig sichern und funktionsfähig halten kann. Darüber hinaus entscheiden sich die Forschenden dafür, die Handschriften und Drucke gedruckt und online zu veröffentlichen. Hierbei stehen sie zunächst vor dem Problem, den Quellenkatalog für diesen Zweck anpassen zu müssen, um die digitalen Editionen virtuell präsentieren zu können. Unklar ist, inwiefern eine Erweiterung des Quellenkatalogs genügt oder ob stattdessen ein neues System dafür notwendig ist. Zudem wissen die Projektbeteiligten nicht, welche Standards für historische Editionen gelten, insbesondere für historische Musikeditionen und welche Editionswerkzeuge und -systeme die spezifischen sprachlichen und musikwissenschaftlichen Anforderungen des Quellmaterials erfüllen können. Ferner fehlt im Projekt ein Workflow, um ausgehend von dem analog vorliegenden Quellenmaterial digitale und gedruckte Editionen zu erstellen. Schließlich ist den Forschenden nicht klar, wie eine langfristige Sicherung der digitalen musikhistorischen Editionen sichergestellt werden kann.

Posted on

60 Historische Grenzen und Raumordnungen

< Back to problem stories

Unser Online-Quellenportal bietet neben Text- und Bildquellen auch eine Vielzahl von Karten, die die wechselnden Grenzen und politischen Einheiten des heutigen Deutschlands von der Frühen Neuzeit bis in die Gegenwart zeigen. Statt statischer Karten erwarten durch Google Maps und ähnliche Dienste geprägte Nutzer*innen von einem modernen Internet-Angebot zunehmend dynamische Karten, die das Heran- und Wegzoomen bestimmter Gegenden, dynamische Animationen von Grenzverschiebungen im zeitlichen Verlauf sowie die interaktive Einblendung von Zusatzinformationen wie etwa die Lebenswege bestimmter Personen unterstützen. Programmbibliotheken wie leaflet.js ermöglichen es, solche Funktionalitäten sowohl auf aktuellen Luftbildkarten als auch mit retro-digitalisierten historischen Karten im Hintergrund zu realisieren. Uns fehlt aber ein historisches Geoinformationssystem, das die häufig wechselnden Landes- und Gebietsgrenzen in Europa und insbesondere in Deutschland über die letzten Jahrhunderte (Altes Reich, Napoleonisches Zeitalter, Deutscher Bund, Reichsgründung, Weimarer Republik, Deutsche Teilung, Neue Bundesrepublik) mit den entsprechenden Territorien (Fürsten- und Herzogtümer, Königreiche, Bundesstaaten, (Bundes-)Länder und Bezirke) in passenden Formaten hinreichend exakt und unter einer freien Lizenz bereitstellt.

Posted on