Task Area 1

70 Sozialdaten als Quellen der Zeitgeschichte

< Back to problem stories

Im Rahmen eines geförderten Projekts beteiligt sich das DHI London daran, Richtlinien für eine von zeithistorischen ForscherInnen dringend benötigte Infrastruktur zur Erfassung, Langzeitarchivierung, Zugänglichkeit und Auswertung neuartiger Datenbestände (sogenannter „Sozialdaten“) aufzubauen. Bei Sozialdaten handelt es sich um die seit der 2. Hälfte des 20. Jahrhunderts zunehmend erzeugten Datensammlungen einerseits staatlicher Behörden, andererseits (im breitesten Sinne) sozialwissenschaftlicher Forschungen. Dies sind heterogene, oft fragmentarisch überlieferte, quantitative und qualitative Daten. Ziel der laufenden Machbarkeitsstudie ist, vorhandene Sozialdatenbestände zu evaluieren, die Bedarfe zeithistorischer Forschung zu erfassen und Umsetzungsmodelle für den Aufbau einer solchen Forschungsdateninfrastruktur herauszuarbeiten und in der Fachcommunity breit zu verankern. Die Forschungsinfrastruktur soll unter anderem zum Erreichen folgender Ziele beitragen: • Sozialdaten sollen als historische Quellen erschlossen und langzeitarchiviert werden können; • diese Datenbestände sollen für die historische Forschung sichtbar dokumentiert und zentral recherchierbar sein; • Metadatenformate zur Kontextualisierung sollen bereitgestellt werden; • es sollen fortlaufend Tools zur optimalen Nutzung der Sozialdaten gemäß den historischen Forschungsinteressen entwickelt und betreut werden; • Beratungs- und Schulungsangebote zu Sozialdaten sollen angeboten werden; • Bedingungen einer rechtskonformen Nachnutzung von Sozialdaten in Bezug auf Datenschutz, Nutzungsbedingungen und Eigentum an den Daten sollen erkundet werden; • Plattformen für die Kommunikation zwischen DatennutzerInnen und DatenhalterInnen sowie zwischen sozial- und geschichtswissenschaftlichen Forschenden sollen entstehen; • die Verknüpfung mit anderen nationalen und internationalen Infrastrukturen gleichen Typs soll hergestellt werden, um mittel- bzw. langfristig internationale Forschungsinfrastrukturen aufbauen zu können. Die Forschenden stoßen auf folgende Probleme: • stark fragmentierte Datenbestände; • Fehlen einer leicht auffindbaren und aussagekräftigen Dokumentation der Daten (beispielsweise zum Archivierungsort); • Fehlen einheitlicher Standards zum Kuratieren zeitgeschichtlicher Daten, etwa von Interviews; • rechtliche Unklarheiten, etwa zu Datenschutz, Urheberrecht, Anonymisierung; • hohe Hürden für HistorikerInnen zur Forschung mit Sozialdaten, da frei verfügbare Sozialdatenbestände fehlen und die statistischen Kenntnisse für deren Auswertung nicht in den historischen Curricula der Universitäten verankert sind; • Nichtberücksichtigung von Schnittstellen zu sozialwissenschaftlichen Infrastrukturen und Erschließungstechniken beim bisherigen Aufbau digitaler geisteswissenschaftlicher Forschungsinfrastrukturen.

Posted on

69 Wie lassen sich die Bestände unseres Forschungsarchivs zeitgemäß erschließen?

< Back to problem stories

Unser Spezialarchiv, das Teil einer außeruniversitären Forschungseinrichtung ist, befasst sich mit der Bewahrung historischen Materials institutioneller wie privater Herkunft und muss daher frühere Konzepte der Strukturierung physisch vorhandener Bestände und von Wissen (Behördenhierarchien etc.) nachvollziehen. Zugleich müssen wir bei der Erschließung und Digitalisierung versuchen vorwegzunehmen, was für künftige Nutzer*innen interessant sein wird, und eine entsprechende Aufbereitung des Vorhandenen ermöglichen oder zumindest nicht verhindern. Darüber hinaus befinden wir uns in einer größeren technischen und organisatorischen Umbruchphase und stehen dabei unter anderem vor der Frage, welche Erschließungsformen zukunftsträchtig und arbeitsökonomisch sind: freie Schlagworte oder kontrollierte Vokabulare? Hierarchien oder Ontologien/Wissensnetzwerke?

Posted on

63 Forschungssoftware

< Back to problem stories

Wesentlicher Kern der Digital Humanities ist die Entwicklung und Erforschung digitaler Methoden zur Beantwortung geisteswissenschaftlicher Fragestellungen. Softwareentwicklung stellt in diesem Zusammenhang einen zentralen Bestandteil der Forschungspraxis dar. Nicht selten ist dabei die Entwicklung eines Algorithmus, einer Schnittstelle oder eines Softwarepaketes die eigentliche wissenschaftliche Leistung. Forschungssoftware entsteht in einem komplexen, kreativen, kombinatorischen und oft kollaborativen Prozess, der durch zahlreiche Abhängigkeiten zu anderen Ressourcen und Softwarekomponenten gekennzeichnet ist. Im Gegensatz zu klassischen Forschungsdaten ist der Lebenszyklus von Forschungssoftware wesentlich kürzer und weitaus anfälliger für „äußere Einflüsse“. Zum einen wird Forschungssoftware häufig nur zur kurzfristigen Erzeugung oder Verifikation von Forschungsergebnissen erstellt, zum anderen leidet sie unter der oft begrenzten Förderdauer von Projekten. Themen wie das Überarbeiten von Quellcode, um eine bessere Wartbarkeit zu erzielen, oder das Erstellen von Dokumentationen und Tutorials werden aus Zeitgründen häufig nicht in ausreichendem Maße berücksichtigt. Zudem fallen bei Auslauf der Projektmittel die Softwareentwickler*innen als notwendige technische Expert*innen weg, so dass die Software nicht mehr gepflegt wird und schnell veraltet. Als spezielle Art von Forschungsdaten stellt Software besondere Herausforderungen an den Entwicklungsprozess und an ein nachhaltiges Datenmanagement. Die Anerkennung von Software als Forschungsergebnis sowie die Schaffung institutioneller Strukturen, die Softwareentwickler*innen verlässliche Karrierewege ermöglichen und nicht zuletzt die Integration von Software in nachhaltige Forschungsdateninfrastrukturen würden maßgeblich zu einer qualitativ besseren Forschungspraxis beitragen.

Posted on

59 Sicherung der einheitlichen Erfassung von Metadaten für Forschungsdaten

< Back to problem stories

Als Forschungsdatenkurator möchte ich die einheitliche Beschreibung von Forschungsdaten mit Metadaten durch die Forschenden kontrollieren und sichern, um die Forschungsdaten möglichst gut wiederauffindbar zu machen. Wie gewährleiste ich eine einheitliche Beschreibung von Forschungsdaten, die von verschiedenen Wissenschaftlern aus verschiedenen disziplinären aber auch interdisziplinären Arbeitsgruppen kommen? Eine brauchbare technische Plattform, die mich beim Einrichten von Workflows für Metadaten-Review bzw. Qualitätskontrolle der Daten und Metadaten unterstützt, scheint es derzeit noch nicht zu geben.

Posted on

53 Datendokumentation zur Nachvollziehbarkeit der Aufbereitung von Forschungsdaten

< Back to problem stories

Als Forschungsdatenmanager oder Forscher möchte ich den Entstehungsverlauf meiner Forschungsdaten im Forschungsprozess genau dokumentieren, um die Verarbeitungsschritte nachvollziehbar zu machen und die Arbeitsabläufe zur Erstellung und weiteren Verarbeitung darüber hinaus als Vorlage für spätere, ähnliche Projekte festzuhalten. Ein typischer Workflow ist beispielsweise die Annotation und Identifikation von in Textquellen genannten Entitäten (Personen, Organisationen, Orte, Ereignisse, Begriffe, usw.) mit Named Entity Recognition- und Named Entity Disambiguation-Werkzeugen oder insbesondere auch die Reconciliation von Entitäten in tabellarischen Daten (etwa zur Harmonisierung historischer Zensusdaten) – z.B. mit dem Tool OpenRefine. Wichtig dabei ist eine Dokumentation der Aufbereitung der Forschungsdaten möglichst schon während des Forschungsprozesses: Wer hat was mit welchem Werkzeug und mit welcher Zuverlässigkeit angereichert? Ideal wären dazu Plattformen, die eine Dokumentation der Arbeitsschritte zur Erstellung und Anreicherung der Forschungsdaten gemäß Datenmanagementplan (DMP) – d.h. Forschungsdatenmanagement-Workflows im “life cycle of historical information” (siehe dazu https://doi.org/10.3233/SW-140158) – unterstützt. Für eine spätere Nachnutzung der Daten ist eine ausführliche Datendokumentation wichtig zur Suche nach relevanten Forschungsdaten (z.B. anhand der verwendeten Datenmodelle und Standards wie SDMX, RDF Data Cube und SKOS für Kodierlisten in statistischen Daten) und zur Einschätzung der Qualität der angereicherten Daten (z.B. bei der Zusammenstellung und Integration von kodierten Daten zur statistischen Analyse).

Posted on

52 Publikation von Forschungsdaten als Ergänzung eines Zeitschriftenaufsatzes

< Back to problem stories

Als Redakteur einer geschichtswissenschaftlichen Zeitschrift will ich die Publikation von Forschungsdaten organisieren, um die in Aufsätzen publizierten Forschungsergebnisse anhand der verwendeten Daten (Quellen) nachvollziehbar bzw. reproduzierbar zu machen. Das Problem ist, dass aktuell noch Empfehlungen und Leitlinien für Autoren zur Veröffentlichung sowie zur Sicherung der Datenqualität und ein Metadatenschema zur adäquaten Beschreibung geschichtswissenschaftlicher Forschungsdaten mit Metadaten fehlen. Soll die Publikation von Forschungsdaten in einer Forschungsdaten-Policy für die Zeitschrift geregelt werden oder in einer eigenen Forschungsdaten-Policy der herausgebenden Körperschaft (Institut) festgelegt sein? In welchem Repositorium sollen die Forschungsdaten zur Verfügung gestellt werden? Reicht ggf. eine Veröffentlichung als Supplement auf der Website des Zeitschriftenverlags oder sollte besser ein fachspezisches bzw. das institutionelle Forschungsdatenrepositorium verwendet werden? Welche fachspezifischen methodischen Aspekte der Erstellung, Sammlung, Aufbereitung, Auswertung oder sonstigen Bearbeitung der Forschungsdaten müssen neben den administrativen, rechtlichen und natürlich technischen Aspekten in den Metadaten beschrieben werden?

Posted on

51 Ortsverteilte Digitalisierung und virtuelle Präsentation nicht lateinschriftlicher Archivakten

< Back to problem stories

Im Zuge eines geförderten Projekts sollen mehrere Millionen Blatt Akten in lateinischer und nicht lateinischer Schrift aus der ersten Hälfte des 20. Jahrhunderts digitalisiert und im Internet mehrsprachig präsentiert werden. Die Aktenbestände befinden sich in unterschiedlichen Archiven im In- und Ausland und weisen unterschiedliche Arten sowie Grade der Erschließung auf. Die Projektmitarbeiter*innen stehen vor dem Problem, einen koordinierten, aber dezentral organisierten Workflow zur Retrodigitialisierung und Erschließung der Akten zu entwickeln. Hierbei stellt sich zunächst die organisatorische und gleichsam diplomatische Frage, wie man am besten mit den betreffenden Archiven in Kontakt treten und die Arbeiten organisieren kann. Dann bestehen urheber- und datenschutzrechtliche Zweifel, insbesondere vor dem Hintergrund, dass viele der Akten in Archiven außerhalb Europas aufbewahrt werden. Dazu zählen auch veröffentlichungsrechtliche Fragen, etwa, inwieweit und in welcher Form man digitalisiertes Schriftgut aus nicht deutschen Archiven überhaupt virtuell publizieren darf. Ferner besteht die Schwierigkeit, ein aussagekräftiges, aber nicht zu kompliziertes Metadatenschema in mehreren (auch nicht lateinischen) Schriften zu entwickeln, das sowohl historischen als auch archivwissenschaftlichen Ansprüchen genügt. Hierbei besteht zudem der Wunsch, bereits in den Archiven vorliegende Metadaten mit dem projekteigenen Metadatenset zu harmonisieren und somit für die Projektarbeit nachzunutzen. Schlussendlich stellt sich das Problem, eine passende technische Grundlage zu finden, um nicht nur den Projektworkflow zu unterstützen, sondern die digitalisierten und mit Metadaten angereicherten Akten auch in rechtlich zulässiger Form im Internet verfügbar zu machen.

Posted on

50 Dezentrale Digitalisierung und virtuelle Präsentation von historischen Interviews in nicht lateinischen Schriften

< Back to problem stories

Im Zuge eines internationalen Projektes sollen mehrere hundert Interviews in nicht lateinischer Schrift digitalisiert, mit Metadaten versehen und im Internet präsentiert werden. Die Interviews wurden in der ersten Hälfte des 20. Jahrhunderts verschriftlicht und befinden sich in verschiedenen Archiven im nicht europäischen Ausland. Einige der Materialien wurden bereits retrodigitalisiert. Die Projektmitarbeiter*innen sind mit folgenden Problemen konfrontiert: • Rechtliche Unsicherheiten: Es herrschen urheber- und datenschutzrechtliche Unklarheiten, unter anderem hinsichtlich der möglichen Verarbeitung personenbezogener Daten. Daher stellt sich die Frage, welche Maßnahmen zum Schutz dieser Daten getroffen werden müssen und wie sie umgesetzt werden können. Hierzu zählen unter anderem Anonymisierungskonzepte und -standards, aber auch die Frage, ob und in welcher Form derartige Materialien veröffentlicht werden dürfen. • Metadaten: Unklar ist, welche Metadaten für das Projekt notwendig sind und inwiefern bereits in den Archiven vorhandene Metadaten nachnutzbar sind. Des Weiteren herrscht Unklarheit darüber, wie man die Metadaten so gestaltet, dass sie die historischen, bibliothekarischen und archivwissenschaftlichen Anforderungen in mehreren Sprachen erfüllen. • Standards für Textdaten: Es besteht Unklarheit, welche Standards für die Veröffentlichung von Textdaten existieren und welche in dem vorliegenden Fall wie anzuwenden sind. • Technische Plattform: Es wird eine technische Lösung gesucht, um die Metadaten dezentral in mehreren lateinischen und nicht lateinischen Schriften erfassen und präsentieren zu können. Darüber hinaus soll eine Volltextsuche in den Interviews möglich sein. Die Visualisierung von Standorten auf interaktiven Karten soll ebenfalls unterstützt werden. Die technische Lösung soll des Weiteren anschlussfähig für Systeme zur digitalen Langzeitarchivierung für die dauerhafte Speicherung sein. • Workflow: Es besteht die Schwierigkeit, einen Arbeitsablauf zu organisieren, der die unterschiedlichen dezentral stattfindenden Arbeitsschritte koordiniert und dokumentiert.

Posted on

49 Digitale Quellenedition historischer Berichte

< Back to problem stories

Ein Forschender möchte eine digitale Edition historischer Berichte aus dem 17. und 18. Jahrhunderts im Internet veröffentlichen. Die Dokumente liegen in unterschiedlichen Sprachen in lateinischer Schrift in verschiedenen europäischen Archiven vor. Die Edition soll ein Verzeichnis der Berichte und verschiedene Register umfassen. Es soll zudem Verknüpfungen mit unterschiedlichen Arten von Normdaten (unter anderem GND, VIAF) geben. Eine erweiterte Suche soll die Recherche im Dokumentenbestand erleichtern. So soll beispielsweise nach Fundort, Titel, Absender*in, Empfänger*in, Absendeort und Empfängerdatum gesucht werden können. Der Forschende muss für sein Projekt folgende Probleme lösen: • Zunächst müssen die in verschiedenen europäischen Archiven vorhandenenhistorischen Berichten transkribiert werden. Dem Forschenden sind mit Blick auf digitale Editionen jedoch weder einschlägige Standards noch Richtlinien bekannt. • Zudem fehlt es ihm an persönlichen Kontakten in den unterschiedlichen Archiven mit ihren jeweiligen Nationalsprachen. • Der Forschende ist ferner nur rudimentär mit digitalen Editionen vertraut und kennt deren editionswissenschaftliche Gepflogenheiten und Möglichkeiten nicht. • Obwohl er eine klare Vorstellung davon hat, welche Metadaten aus Perspektive der Geschichtswissenschaft relevant sind, weiß er nicht, ob diese für digitale historische Editionen ausreichend bzw. passend sind. • Darüber hinaus ist ihm nicht bekannt, welche technische Plattform man für ein solches Vorhaben benötigt und welche Kosten damit verbunden sind. • Des Weiteren weiß der Forschende nicht, ob bzw. wie seine Edition langfristig gesichert werden kann und was dafür zu tun ist.

Posted on

48 Korpus von historischen Übersetzungen zur ideen- und begriffsgeschichtlichen Forschung

< Back to problem stories

Ein Forschender möchte in einem Projekt einen Korpus von Texten aus dem 18. Jahrhundert inklusive der dazugehörigen nicht lateinischschriftlichen Übersetzungen erstellen und im Internet verfügbar machen, um Wissens- und Sprachtransfer aus ideen- und begriffsgeschichtlicher Perspektive zu erforschen. Die Internetpräsenz soll es ermöglichen, das Korpus zu durchsuchen und die unterschiedlichen Texte inklusive der dazugehörigen Übersetzungen in einer kollationierten Ansicht anzeigen zu lassen. Durch Anklicken eines Schlüsselbegriffs sollen Textstellen in anderen Texten angezeigt werden können, in denen jener Ausdruck vorkommt. Einschlägige Informationsseiten zu jedem Text sowie ein Glossar wichtiger Begriffe soll es ebenfalls geben. Jeder einzelne Eintrag soll mit persistenten Identifikatoren referenziert und zitiert werden können. Ferner soll auch eine erweiterte Suche möglich sein. Der Forschende muss folgende Probleme lösen: • Zunächst muss der Forschende die Texte in verschiedene nicht lateinische Schriftsysteme transkribieren. Allerdings kennt er dafür weder die fachgerechten Standards, noch die notwendigen Tools. • Die für das Projekt relevanten digitalen Quellen (Übersetzungen) sind hinsichtlich der Referenzierbarkeit problematisch, da keine einheitliche Zitationskultur und -form dafür existiert. Ferner werden Onlinepublikationen solcher Quellen in den Universitäten vieler Länder nicht als wissenschaftliche Publikation anerkannt. Diese beiden Probleme scheinen miteinander verbunden zu sein: Das Fehlen einer formalisierten einheitlichen Zitierweise solcher Quellen einerseits und die fehlende Wertschätzung seitens wissenschaftlicher Institutionen andererseits bedingen sich gegenseitig. • Der Forschende muss die Texte zudem mit Informationen anreichern, unter anderem zu wichtigen Begriffen und Konzepten. Er fragt sich, wie er dies so bewerkstelligen kann, dass diese Informationen auf der Internetpräsenz auffindbar sind und bei der Recherche berücksichtigt werden. • Zudem stellt sich der Forschende die Frage, welche technische Plattform er für sein Vorhaben benötigt, welcher Arbeitsaufwand damit verbunden ist und welche Kosten sich daraus ergeben. • Außerdem ist ihm noch unklar, wie er eine langfristige Pflege und Wartung seiner Website sowie der auf ihr präsentierten Daten gewährleisten kann.

Posted on