datacollection

69 Wie lassen sich die Bestände unseres Forschungsarchivs zeitgemäß erschließen?

< Back to problem stories

Unser Spezialarchiv, das Teil einer außeruniversitären Forschungseinrichtung ist, befasst sich mit der Bewahrung historischen Materials institutioneller wie privater Herkunft und muss daher frühere Konzepte der Strukturierung physisch vorhandener Bestände und von Wissen (Behördenhierarchien etc.) nachvollziehen. Zugleich müssen wir bei der Erschließung und Digitalisierung versuchen vorwegzunehmen, was für künftige Nutzer*innen interessant sein wird, und eine entsprechende Aufbereitung des Vorhandenen ermöglichen oder zumindest nicht verhindern. Darüber hinaus befinden wir uns in einer größeren technischen und organisatorischen Umbruchphase und stehen dabei unter anderem vor der Frage, welche Erschließungsformen zukunftsträchtig und arbeitsökonomisch sind: freie Schlagworte oder kontrollierte Vokabulare? Hierarchien oder Ontologien/Wissensnetzwerke?

Posted on

68 Datenmigration

< Back to problem stories

Ich bin Wissenschaftler*in und möchte einen aus unterschiedlichen Quellen aggregierten Datenbestand für Fragestellungen nutzen, die ich z.B. mit Hilfe von Methoden aus dem Bereich des Textmining oder der Netzwerkanalyse beantworten könnte. Anschließend möchte ich die Ergebnisse so publizieren, dass sie von anderen Wissenschaftler*innen nachvollzogen und reproduziert werden können. Die Ausgangsdaten liegen in unterschiedlichen, fachspezifischen (teils auch älteren, heute nicht mehr gebräuchlichen) Datenformaten/Versionen vor (Plaintext, Word, Indesign, Tustep, verschiedene XML-Notationen, etc.). Mir stellen sich folgende Fragen: Wie lassen sich die Daten in ein für meine Fragestellung geeignetes Format transformieren? Gibt es einen (Web)Service für so etwas? Welches ist ein geeignetes Format für die Publikation der Ergebnisse? Wie kann ich sicherstellen, dass die Werkzeuge und Algorithmen, die ich für die Analyse benutzt habe, auch für weitere Generationen von Forschenden noch auffindbar sind und meine Ergebnisse reproduziert werden können?

Posted on

63 Forschungssoftware

< Back to problem stories

Wesentlicher Kern der Digital Humanities ist die Entwicklung und Erforschung digitaler Methoden zur Beantwortung geisteswissenschaftlicher Fragestellungen. Softwareentwicklung stellt in diesem Zusammenhang einen zentralen Bestandteil der Forschungspraxis dar. Nicht selten ist dabei die Entwicklung eines Algorithmus, einer Schnittstelle oder eines Softwarepaketes die eigentliche wissenschaftliche Leistung. Forschungssoftware entsteht in einem komplexen, kreativen, kombinatorischen und oft kollaborativen Prozess, der durch zahlreiche Abhängigkeiten zu anderen Ressourcen und Softwarekomponenten gekennzeichnet ist. Im Gegensatz zu klassischen Forschungsdaten ist der Lebenszyklus von Forschungssoftware wesentlich kürzer und weitaus anfälliger für „äußere Einflüsse“. Zum einen wird Forschungssoftware häufig nur zur kurzfristigen Erzeugung oder Verifikation von Forschungsergebnissen erstellt, zum anderen leidet sie unter der oft begrenzten Förderdauer von Projekten. Themen wie das Überarbeiten von Quellcode, um eine bessere Wartbarkeit zu erzielen, oder das Erstellen von Dokumentationen und Tutorials werden aus Zeitgründen häufig nicht in ausreichendem Maße berücksichtigt. Zudem fallen bei Auslauf der Projektmittel die Softwareentwickler*innen als notwendige technische Expert*innen weg, so dass die Software nicht mehr gepflegt wird und schnell veraltet. Als spezielle Art von Forschungsdaten stellt Software besondere Herausforderungen an den Entwicklungsprozess und an ein nachhaltiges Datenmanagement. Die Anerkennung von Software als Forschungsergebnis sowie die Schaffung institutioneller Strukturen, die Softwareentwickler*innen verlässliche Karrierewege ermöglichen und nicht zuletzt die Integration von Software in nachhaltige Forschungsdateninfrastrukturen würden maßgeblich zu einer qualitativ besseren Forschungspraxis beitragen.

Posted on

62 Ortsverteilte Erfassung und virtuelle Präsentation nicht lateinschriftlicher Musikquellen + Digitale und analoge Edition

< Back to problem stories

Eine Gruppe von Forschenden untersucht im Rahmen eines Drittmittelprojekts orientalische Musik des 19. Jahrhunderts. Die Musikstücke liegen in analoger Form in verschiedenen Handschriften und Drucken vor, wobei teilweise unterschiedliche Quellen für ein und dasselbe Werk existieren. Die Quellen befinden sich an verschiedenen Standorten im nicht europäischen Ausland. Das Material weicht sowohl von sprachlichen als auch musikalischen Standards ab: in den Handschriften und Drucken mischen sich unterschiedliche nicht lateinische Sprachen und Schriftzeichen (mit einigen historischen Sonderzeichen), die historische Musiknotation entspricht ebenfalls nicht dem westeuropäischen Notationsstandard. Die Forschenden möchten einen einschlägigen Quellenkatalog aufbauen und im Internet zugänglich machen. Dabei stehen sie vor dem Problem, ein geeignetes technisches System zu finden, das die spezifischen sprachlichen und musikwissenschaftlichen Anforderungen der Quellen erfüllt. Zudem fragen sie sich, welche Metadaten dafür notwendig sind und wie man diese standardisiert in mehreren Sprachen und Schriftsystemen ortsverteilt erfassen und darstellen kann. Ferner stellt sich die Frage, wie man den Quellenkatalog langfristig sichern und funktionsfähig halten kann. Darüber hinaus entscheiden sich die Forschenden dafür, die Handschriften und Drucke gedruckt und online zu veröffentlichen. Hierbei stehen sie zunächst vor dem Problem, den Quellenkatalog für diesen Zweck anpassen zu müssen, um die digitalen Editionen virtuell präsentieren zu können. Unklar ist, inwiefern eine Erweiterung des Quellenkatalogs genügt oder ob stattdessen ein neues System dafür notwendig ist. Zudem wissen die Projektbeteiligten nicht, welche Standards für historische Editionen gelten, insbesondere für historische Musikeditionen und welche Editionswerkzeuge und -systeme die spezifischen sprachlichen und musikwissenschaftlichen Anforderungen des Quellmaterials erfüllen können. Ferner fehlt im Projekt ein Workflow, um ausgehend von dem analog vorliegenden Quellenmaterial digitale und gedruckte Editionen zu erstellen. Schließlich ist den Forschenden nicht klar, wie eine langfristige Sicherung der digitalen musikhistorischen Editionen sichergestellt werden kann.

Posted on

60 Historische Grenzen und Raumordnungen

< Back to problem stories

Unser Online-Quellenportal bietet neben Text- und Bildquellen auch eine Vielzahl von Karten, die die wechselnden Grenzen und politischen Einheiten des heutigen Deutschlands von der Frühen Neuzeit bis in die Gegenwart zeigen. Statt statischer Karten erwarten durch Google Maps und ähnliche Dienste geprägte Nutzer*innen von einem modernen Internet-Angebot zunehmend dynamische Karten, die das Heran- und Wegzoomen bestimmter Gegenden, dynamische Animationen von Grenzverschiebungen im zeitlichen Verlauf sowie die interaktive Einblendung von Zusatzinformationen wie etwa die Lebenswege bestimmter Personen unterstützen. Programmbibliotheken wie leaflet.js ermöglichen es, solche Funktionalitäten sowohl auf aktuellen Luftbildkarten als auch mit retro-digitalisierten historischen Karten im Hintergrund zu realisieren. Uns fehlt aber ein historisches Geoinformationssystem, das die häufig wechselnden Landes- und Gebietsgrenzen in Europa und insbesondere in Deutschland über die letzten Jahrhunderte (Altes Reich, Napoleonisches Zeitalter, Deutscher Bund, Reichsgründung, Weimarer Republik, Deutsche Teilung, Neue Bundesrepublik) mit den entsprechenden Territorien (Fürsten- und Herzogtümer, Königreiche, Bundesstaaten, (Bundes-)Länder und Bezirke) in passenden Formaten hinreichend exakt und unter einer freien Lizenz bereitstellt.

Posted on

57 Virtuelle Veröffentlichung von Quellen und Forschungsergebnissen in einem Blog

< Back to problem stories

Eine Gruppe von Forschenden der Geschichtswissenschaft möchte ihre Forschungsergebnisse sowie einige Quellen (Texte, Bildmaterial) veröffentlichen. Da für die Publikation keine Finanzmittel zur Verfügung stehen, suchen sie ein Publikationsmedium im Internet, das keine Kosten verursacht, aber dennoch gut und auch international sichtbar ist. Dabei ist ihnen wichtig, den Veröffentlichungsprozess zwar komplett ohne fremde Hilfe, zugleich aber zeitversetzt und kollaborativ durchführen zu können. Zudem sollen die Veröffentlichungen im Internet frei nutzbar und gut auffindbar sein. Auch eine Kommentarfunktion wäre hilfreich, um die wissenschaftliche Diskussion zu beflügeln. Da die Publikationen nur online erscheinen, ist den Forschenden eine nachhaltige Sicherung der veröffentlichten Inhalte wichtig. Nach reiflicher Überlegung entscheiden sich die Forschenden für einen wissenschaftlichen Blog. Die Forschenden stehen vor folgenden Problemen: • Sie haben nur eingeschränkte Kenntnisse von Websystemen bzw. Webentwicklung, allerdings auch keine finanziellen Mittel, um dies in Auftrag zu geben oder jemanden dafür einzustellen. • Die Forschenden wissen nicht genau, welche Kriterien bei der Auswahl solcher Systeme wichtig sind. Daher ist ihnen nicht klar, welches System sich für ihre Bedarfe eignet und dabei auch in der Handhabung einfach ist. • Die Forschenden haben die Befürchtung, dass ihre im Internet veröffentlichten Forschungsergebnisse und Quellen mangels finanzieller Mittel irgendwann verschwinden, unter anderem weil das System, in dem die Ergebnisse präsentiert werden, veralten könnte. Sie wissen jedoch nicht, wie sie dem vorbeugen können.

Posted on

56 Schulung und Beratung im Bereich Geoinformationssystem (GIS)

< Back to problem stories

Eine Forscherin möchte gerne Geodaten, die sie aus einem gedruckten Textkorpus extrahiert hat, auf einer interaktiven Karte visualisieren. Die Daten sollen anschließend als .csv für die Forschung zur Verfügung gestellt werden. Konkret steht sie vor der Frage, welche der zahlreichen angebotenen Tools für ihre Zwecke das Geeignetste ist oder ob etwas Eigenes programmiert werden muss. Wichtig ist ihr, die Geodaten auf einer historischen Karte zu zeigen, nicht auf einer aktuellen. Sie fragt sich auch, wie sie internationale Normdaten verwenden kann, welche internationalen Gazetteers/historische Ortslexika es bereits gibt und wie und wo die Webansicht sowie die Daten nachhaltig gespeichert werden können. Gerne würde sie sich von kompetenter Seite Rat holen und an einer Schulung zu GIS einerseits und einer Einführung in die Nutzung eines konkreten Tools - sofern für ihren spezifischen Zweck vorhanden - andererseits teilnehmen.

Posted on

55 Digitale Textanalyse in internationalen historischen Zeitungen

< Back to problem stories

Eine Gruppe von Forschenden möchte den sprachlichen Wandel rund um das Thema “Politikverdrossenheit” in internationalen historischen Zeitungen des 19. und 20. Jahrhunderts untersuchen. Die Zeitungen liegen in Teilen digitalisiert vor, allerdings auf unterschiedlichen, internationalen Plattformen. Nicht alle sind im Volltext erfasst. In Teilen gibt es sie nur gedruckt. Die Gruppe steht vor folgenden Problemen: • Wie kann sie die großen Mengen an Zeitungsartikeln unterschiedlicher Herkunft mit wenig Aufwand und unter Einhaltung des jeweiligen Urheberrechts zu einem Corpus zusammenfügen? • Wie kann sie das Corpus für die digitale Analyse vorbereiten und mit internationalen Normdaten anreichern? • Wie kann sie eine digitale Analyse des Corpus vornehmen? • Wo und wie können die Daten anschließend gespeichert werden, so dass die erarbeiteten Forschungsergebnisse nachvollziehbar sind?

Posted on

51 Ortsverteilte Digitalisierung und virtuelle Präsentation nicht lateinschriftlicher Archivakten

< Back to problem stories

Im Zuge eines geförderten Projekts sollen mehrere Millionen Blatt Akten in lateinischer und nicht lateinischer Schrift aus der ersten Hälfte des 20. Jahrhunderts digitalisiert und im Internet mehrsprachig präsentiert werden. Die Aktenbestände befinden sich in unterschiedlichen Archiven im In- und Ausland und weisen unterschiedliche Arten sowie Grade der Erschließung auf. Die Projektmitarbeiter*innen stehen vor dem Problem, einen koordinierten, aber dezentral organisierten Workflow zur Retrodigitialisierung und Erschließung der Akten zu entwickeln. Hierbei stellt sich zunächst die organisatorische und gleichsam diplomatische Frage, wie man am besten mit den betreffenden Archiven in Kontakt treten und die Arbeiten organisieren kann. Dann bestehen urheber- und datenschutzrechtliche Zweifel, insbesondere vor dem Hintergrund, dass viele der Akten in Archiven außerhalb Europas aufbewahrt werden. Dazu zählen auch veröffentlichungsrechtliche Fragen, etwa, inwieweit und in welcher Form man digitalisiertes Schriftgut aus nicht deutschen Archiven überhaupt virtuell publizieren darf. Ferner besteht die Schwierigkeit, ein aussagekräftiges, aber nicht zu kompliziertes Metadatenschema in mehreren (auch nicht lateinischen) Schriften zu entwickeln, das sowohl historischen als auch archivwissenschaftlichen Ansprüchen genügt. Hierbei besteht zudem der Wunsch, bereits in den Archiven vorliegende Metadaten mit dem projekteigenen Metadatenset zu harmonisieren und somit für die Projektarbeit nachzunutzen. Schlussendlich stellt sich das Problem, eine passende technische Grundlage zu finden, um nicht nur den Projektworkflow zu unterstützen, sondern die digitalisierten und mit Metadaten angereicherten Akten auch in rechtlich zulässiger Form im Internet verfügbar zu machen.

Posted on

50 Dezentrale Digitalisierung und virtuelle Präsentation von historischen Interviews in nicht lateinischen Schriften

< Back to problem stories

Im Zuge eines internationalen Projektes sollen mehrere hundert Interviews in nicht lateinischer Schrift digitalisiert, mit Metadaten versehen und im Internet präsentiert werden. Die Interviews wurden in der ersten Hälfte des 20. Jahrhunderts verschriftlicht und befinden sich in verschiedenen Archiven im nicht europäischen Ausland. Einige der Materialien wurden bereits retrodigitalisiert. Die Projektmitarbeiter*innen sind mit folgenden Problemen konfrontiert: • Rechtliche Unsicherheiten: Es herrschen urheber- und datenschutzrechtliche Unklarheiten, unter anderem hinsichtlich der möglichen Verarbeitung personenbezogener Daten. Daher stellt sich die Frage, welche Maßnahmen zum Schutz dieser Daten getroffen werden müssen und wie sie umgesetzt werden können. Hierzu zählen unter anderem Anonymisierungskonzepte und -standards, aber auch die Frage, ob und in welcher Form derartige Materialien veröffentlicht werden dürfen. • Metadaten: Unklar ist, welche Metadaten für das Projekt notwendig sind und inwiefern bereits in den Archiven vorhandene Metadaten nachnutzbar sind. Des Weiteren herrscht Unklarheit darüber, wie man die Metadaten so gestaltet, dass sie die historischen, bibliothekarischen und archivwissenschaftlichen Anforderungen in mehreren Sprachen erfüllen. • Standards für Textdaten: Es besteht Unklarheit, welche Standards für die Veröffentlichung von Textdaten existieren und welche in dem vorliegenden Fall wie anzuwenden sind. • Technische Plattform: Es wird eine technische Lösung gesucht, um die Metadaten dezentral in mehreren lateinischen und nicht lateinischen Schriften erfassen und präsentieren zu können. Darüber hinaus soll eine Volltextsuche in den Interviews möglich sein. Die Visualisierung von Standorten auf interaktiven Karten soll ebenfalls unterstützt werden. Die technische Lösung soll des Weiteren anschlussfähig für Systeme zur digitalen Langzeitarchivierung für die dauerhafte Speicherung sein. • Workflow: Es besteht die Schwierigkeit, einen Arbeitsablauf zu organisieren, der die unterschiedlichen dezentral stattfindenden Arbeitsschritte koordiniert und dokumentiert.

Posted on