Task Area 6

64 Big Data: digitalisierte Zeitungen

< Back to problem stories

Ich möchte einen großen Datensatz von digitalisierten Zeitungen analysieren. Mein Forschungsvorhaben soll die Volltexte im Hinblick auf Veränderungen thematischer Schwerpunkte in der Berichterstattung untersuchen und darüber hinaus auch eine Analyse des verwendeten Bildmaterials beinhalten. Die Daten sollen von verschiedenen Archiv- und Bibliotheksservern aggregiert werden. Die Datenmenge ist für meinen lokalen Rechner zu groß, außerdem sind die Algorithmen aus dem Bereich des maschinellen Lernens, die ich für die Analyse verwenden möchte, sehr rechenintensiv. Wo finde ich eine Institution, die mein Vorhaben mit der notwendigen Hardwareausstattung und Rechenleistung unterstützen kann?

Posted on

62 Ortsverteilte Erfassung und virtuelle Präsentation nicht lateinschriftlicher Musikquellen + Digitale und analoge Edition

< Back to problem stories

Eine Gruppe von Forschenden untersucht im Rahmen eines Drittmittelprojekts orientalische Musik des 19. Jahrhunderts. Die Musikstücke liegen in analoger Form in verschiedenen Handschriften und Drucken vor, wobei teilweise unterschiedliche Quellen für ein und dasselbe Werk existieren. Die Quellen befinden sich an verschiedenen Standorten im nicht europäischen Ausland. Das Material weicht sowohl von sprachlichen als auch musikalischen Standards ab: in den Handschriften und Drucken mischen sich unterschiedliche nicht lateinische Sprachen und Schriftzeichen (mit einigen historischen Sonderzeichen), die historische Musiknotation entspricht ebenfalls nicht dem westeuropäischen Notationsstandard. Die Forschenden möchten einen einschlägigen Quellenkatalog aufbauen und im Internet zugänglich machen. Dabei stehen sie vor dem Problem, ein geeignetes technisches System zu finden, das die spezifischen sprachlichen und musikwissenschaftlichen Anforderungen der Quellen erfüllt. Zudem fragen sie sich, welche Metadaten dafür notwendig sind und wie man diese standardisiert in mehreren Sprachen und Schriftsystemen ortsverteilt erfassen und darstellen kann. Ferner stellt sich die Frage, wie man den Quellenkatalog langfristig sichern und funktionsfähig halten kann. Darüber hinaus entscheiden sich die Forschenden dafür, die Handschriften und Drucke gedruckt und online zu veröffentlichen. Hierbei stehen sie zunächst vor dem Problem, den Quellenkatalog für diesen Zweck anpassen zu müssen, um die digitalen Editionen virtuell präsentieren zu können. Unklar ist, inwiefern eine Erweiterung des Quellenkatalogs genügt oder ob stattdessen ein neues System dafür notwendig ist. Zudem wissen die Projektbeteiligten nicht, welche Standards für historische Editionen gelten, insbesondere für historische Musikeditionen und welche Editionswerkzeuge und -systeme die spezifischen sprachlichen und musikwissenschaftlichen Anforderungen des Quellmaterials erfüllen können. Ferner fehlt im Projekt ein Workflow, um ausgehend von dem analog vorliegenden Quellenmaterial digitale und gedruckte Editionen zu erstellen. Schließlich ist den Forschenden nicht klar, wie eine langfristige Sicherung der digitalen musikhistorischen Editionen sichergestellt werden kann.

Posted on

57 Virtuelle Veröffentlichung von Quellen und Forschungsergebnissen in einem Blog

< Back to problem stories

Eine Gruppe von Forschenden der Geschichtswissenschaft möchte ihre Forschungsergebnisse sowie einige Quellen (Texte, Bildmaterial) veröffentlichen. Da für die Publikation keine Finanzmittel zur Verfügung stehen, suchen sie ein Publikationsmedium im Internet, das keine Kosten verursacht, aber dennoch gut und auch international sichtbar ist. Dabei ist ihnen wichtig, den Veröffentlichungsprozess zwar komplett ohne fremde Hilfe, zugleich aber zeitversetzt und kollaborativ durchführen zu können. Zudem sollen die Veröffentlichungen im Internet frei nutzbar und gut auffindbar sein. Auch eine Kommentarfunktion wäre hilfreich, um die wissenschaftliche Diskussion zu beflügeln. Da die Publikationen nur online erscheinen, ist den Forschenden eine nachhaltige Sicherung der veröffentlichten Inhalte wichtig. Nach reiflicher Überlegung entscheiden sich die Forschenden für einen wissenschaftlichen Blog. Die Forschenden stehen vor folgenden Problemen: • Sie haben nur eingeschränkte Kenntnisse von Websystemen bzw. Webentwicklung, allerdings auch keine finanziellen Mittel, um dies in Auftrag zu geben oder jemanden dafür einzustellen. • Die Forschenden wissen nicht genau, welche Kriterien bei der Auswahl solcher Systeme wichtig sind. Daher ist ihnen nicht klar, welches System sich für ihre Bedarfe eignet und dabei auch in der Handhabung einfach ist. • Die Forschenden haben die Befürchtung, dass ihre im Internet veröffentlichten Forschungsergebnisse und Quellen mangels finanzieller Mittel irgendwann verschwinden, unter anderem weil das System, in dem die Ergebnisse präsentiert werden, veralten könnte. Sie wissen jedoch nicht, wie sie dem vorbeugen können.

Posted on

50 Dezentrale Digitalisierung und virtuelle Präsentation von historischen Interviews in nicht lateinischen Schriften

< Back to problem stories

Im Zuge eines internationalen Projektes sollen mehrere hundert Interviews in nicht lateinischer Schrift digitalisiert, mit Metadaten versehen und im Internet präsentiert werden. Die Interviews wurden in der ersten Hälfte des 20. Jahrhunderts verschriftlicht und befinden sich in verschiedenen Archiven im nicht europäischen Ausland. Einige der Materialien wurden bereits retrodigitalisiert. Die Projektmitarbeiter*innen sind mit folgenden Problemen konfrontiert: • Rechtliche Unsicherheiten: Es herrschen urheber- und datenschutzrechtliche Unklarheiten, unter anderem hinsichtlich der möglichen Verarbeitung personenbezogener Daten. Daher stellt sich die Frage, welche Maßnahmen zum Schutz dieser Daten getroffen werden müssen und wie sie umgesetzt werden können. Hierzu zählen unter anderem Anonymisierungskonzepte und -standards, aber auch die Frage, ob und in welcher Form derartige Materialien veröffentlicht werden dürfen. • Metadaten: Unklar ist, welche Metadaten für das Projekt notwendig sind und inwiefern bereits in den Archiven vorhandene Metadaten nachnutzbar sind. Des Weiteren herrscht Unklarheit darüber, wie man die Metadaten so gestaltet, dass sie die historischen, bibliothekarischen und archivwissenschaftlichen Anforderungen in mehreren Sprachen erfüllen. • Standards für Textdaten: Es besteht Unklarheit, welche Standards für die Veröffentlichung von Textdaten existieren und welche in dem vorliegenden Fall wie anzuwenden sind. • Technische Plattform: Es wird eine technische Lösung gesucht, um die Metadaten dezentral in mehreren lateinischen und nicht lateinischen Schriften erfassen und präsentieren zu können. Darüber hinaus soll eine Volltextsuche in den Interviews möglich sein. Die Visualisierung von Standorten auf interaktiven Karten soll ebenfalls unterstützt werden. Die technische Lösung soll des Weiteren anschlussfähig für Systeme zur digitalen Langzeitarchivierung für die dauerhafte Speicherung sein. • Workflow: Es besteht die Schwierigkeit, einen Arbeitsablauf zu organisieren, der die unterschiedlichen dezentral stattfindenden Arbeitsschritte koordiniert und dokumentiert.

Posted on

48 Korpus von historischen Übersetzungen zur ideen- und begriffsgeschichtlichen Forschung

< Back to problem stories

Ein Forschender möchte in einem Projekt einen Korpus von Texten aus dem 18. Jahrhundert inklusive der dazugehörigen nicht lateinischschriftlichen Übersetzungen erstellen und im Internet verfügbar machen, um Wissens- und Sprachtransfer aus ideen- und begriffsgeschichtlicher Perspektive zu erforschen. Die Internetpräsenz soll es ermöglichen, das Korpus zu durchsuchen und die unterschiedlichen Texte inklusive der dazugehörigen Übersetzungen in einer kollationierten Ansicht anzeigen zu lassen. Durch Anklicken eines Schlüsselbegriffs sollen Textstellen in anderen Texten angezeigt werden können, in denen jener Ausdruck vorkommt. Einschlägige Informationsseiten zu jedem Text sowie ein Glossar wichtiger Begriffe soll es ebenfalls geben. Jeder einzelne Eintrag soll mit persistenten Identifikatoren referenziert und zitiert werden können. Ferner soll auch eine erweiterte Suche möglich sein. Der Forschende muss folgende Probleme lösen: • Zunächst muss der Forschende die Texte in verschiedene nicht lateinische Schriftsysteme transkribieren. Allerdings kennt er dafür weder die fachgerechten Standards, noch die notwendigen Tools. • Die für das Projekt relevanten digitalen Quellen (Übersetzungen) sind hinsichtlich der Referenzierbarkeit problematisch, da keine einheitliche Zitationskultur und -form dafür existiert. Ferner werden Onlinepublikationen solcher Quellen in den Universitäten vieler Länder nicht als wissenschaftliche Publikation anerkannt. Diese beiden Probleme scheinen miteinander verbunden zu sein: Das Fehlen einer formalisierten einheitlichen Zitierweise solcher Quellen einerseits und die fehlende Wertschätzung seitens wissenschaftlicher Institutionen andererseits bedingen sich gegenseitig. • Der Forschende muss die Texte zudem mit Informationen anreichern, unter anderem zu wichtigen Begriffen und Konzepten. Er fragt sich, wie er dies so bewerkstelligen kann, dass diese Informationen auf der Internetpräsenz auffindbar sind und bei der Recherche berücksichtigt werden. • Zudem stellt sich der Forschende die Frage, welche technische Plattform er für sein Vorhaben benötigt, welcher Arbeitsaufwand damit verbunden ist und welche Kosten sich daraus ergeben. • Außerdem ist ihm noch unklar, wie er eine langfristige Pflege und Wartung seiner Website sowie der auf ihr präsentierten Daten gewährleisten kann.

Posted on

47 Kyrillisches Wiki mit historischen Informationen, Wörterbuch und Quellen zu Leben und Kultur des Adels

< Back to problem stories

Ein Forschender möchte Informationen, ein einschlägiges Wörterbuch und historische Quellen (Bilder und Text) zu Leben und Kultur des Adels im Internet zugänglich zu machen. Sowohl die Quellen als auch die Präsentationsansicht sollen in kyrillischer Sprache sein. Der Forschende entscheidet sich für die technische Lösung des Wikis.Zur Umsetzung seines Forschungsvorhabens muss der Forschende einige problematische Aspekte klären: • Er muss zunächst einmal eine geeignete technische Plattform für das Wiki finden, die sowohl die kyrillische Schrift als auch die Bereitstellung eines Wörterbuchs unterstützt. • Zudem ist zu klären, was er für die Erstellung des Wikis tun muss und welche Kosten damit verbunden sind. • Schließlich möchte der Forschende dafür sorgen, dass das Wiki langfristig verfügbar ist. Hier stellt sich für ihn die Frage, wie dies sichergestellt werden kann.

Posted on

45 Städtetourismus aus historischer Perspektive

< Back to problem stories

Ein Forschender möchte die Rolle des kommerziellen Städtetourismus für die historische Sinnbildung untersuchen. Zu diesem Zweck sollen einerseits städtetouristische Angebote erfasst sowie typologisiert und andererseits Interviews mit StadtführerInnen und ReiseveranstalterInnen in verschiedenen Sprachen durchgeführt werden. Das Material umfasst sowohl lateinischschriftliche als auch nicht lateinischschriftliche Quellen. Der Forschende ist dabei mit verschiedenen Problemen konfrontiert: • Er muss digitale und analog vorliegende Reiseangebote sammeln, zusammenführen und kategorisieren. Der Forschende weiß jedoch nicht, welche technischen Hilfsmittel sich dafür eignen und welche Standards und Richtlinien dafür notwendig und sinnvoll sind. • Weiterhin muss der Forschende eine technische Lösung finden, um die unterschiedlichen Arten der von ihm untersuchten Quellen (Texte und Bilder in gedruckter und digitaler Form, audiovisuelle Interviews und die dazugehörigen Transkriptionen) zu verwalten, zu publizieren und langfristig zu sichern. • Unklarheit besteht auch bezüglich datenschutzrechtlicher sowie persönlichkeitsrechtlicher Aspekte vor allem bei der Behandlung von Daten aus aktuellen kommerziellen Dienstleistungen (Städtereisen). Erschwerend kommt hinzu, dass einige der Quellen und Angebote aus dem Ausland stammen und somit möglicherweise nicht nach deutschem Recht lizenziert werden können.

Posted on

39 Wissen entgrenzen

< Back to problem stories

Mehrere Forschende arbeiten über verschiedene Standorte international verteilt an ihren Projekten, die einem gemeinsamen Metathema verpflichtet sind. Der Austausch mit den Projektbeteiligten an den anderen Standorten ist von zentraler Bedeutung. Ungeachtet der räumlichen, sprachlichen und fachdisziplinären Diversität benötigen alle eine gemeinsame Infrastruktur, mit der sie untereinander kommunizieren, Befunde teilen und gemeinsame Ergebnisse präsentieren können. Dazu soll auch eine multimediale Datenbank in verschiedenen Sprachen (Arabisch, Persisch und Russisch) gehören. Die Forschenden stehen vor folgenden Problemen: • Die Beteiligten der Projektgruppen sind sich unsicher, welche Kommunikationskanäle ihnen stabile Nutzungsbedingungen bieten können, zumal sie in Regionen mit unterschiedlichen, vor allem aber schwachen technischen Standards arbeiten. • Unklar ist für sie ebenso, wie sie bei der Nutzung dieser Services vor dem Verlust von Forschungsdaten gefeit sind. • Erst recht gilt dies für den Datenschutz, auf den einige von ihnen aufgrund ihrer Forschungsarbeit in politisch brisanten Regionen besonders angewiesen sind. Die Gruppe wünscht sich daher eine Forschungsumgebung, die ausfallsichere Kommunikationswege aufweist. Wichtig ist für sie die Möglichkeit, erhobene Forschungsdaten und Forschungsergebnisse ausfallsicher hinterlegen und auch untereinander austauschen zu können. Zu den Anforderungen an das Speichersystem gehört auch, dass multilinguale Texte und verschiedene Dateiformate sicher hinterlegt werden können, von Textdateien über Bildformate bis hin zu Audio- und Videomaterial. Die Gewährleistung der Datenschutzanforderungen verschiedener Jurisdiktionen ist eine besondere Anforderung.

Posted on

33 Thematische Portale und Materialsammlungen ohne institutionelle Anbindung bewahren

< Back to problem stories

Viele ForscherInnen und Forscher betreiben Blogseiten oder thematische Portale, auf denen sie Material aus Ihrer Forschungsarbeit oder aus dem Kontext ihrer Qualifikationsarbeiten anbieten. Gerade in den Geisteswissenschaften sind häufige Standort- und Beschäftigungswechsel keine Seltenheit. Meist kümmern sich diese Personen in privater Initiative um die Forschungsdaten, Spezialbibliographien und thematischen Portale, da sie sich mit den Themen identifizieren und profilieren. Aber was passiert, wenn jemand aus Altersgründen oder Krankheit sich nicht mehr kümmern kann? Nicht alle wissenschaftlichen Blogseiten können und müssen aufbewahrt werden, aber viele der oben beschriebenen Ressourcen sind eine wichtige Quelle für weiterführende Arbeiten und können anderen ForscherInnen viel Arbeit und Zeit sparen, die sich mit verwandten Themen und Fragestellungen beschäftigen. Wer kümmert sich also um diese Portale und Materialsammlungen, die ohne direkte institutionelle Anbindung exisitieren und gepflegt werden? Wer entscheidet, was bewahrt und was gelöscht bzw. der Wayback Machine überlassen werden kann? Wie können wertvolle Ressourcen für die zukünftige Forschung bewahrt werden?

Posted on

30 Ohne Rechte und Incentives? Probleme der Auswertung und Publikation personenbezogener Daten in der multilingualen Tagebuchforschung

< Back to problem stories

Aus der Praxis meiner Arbeit mit in verschiedenen Ländern verstreuten und in unterschiedlichen Sprachen verfassten historischen Quellen zu einem geschichtspolitisch kontroversen Thema gibt es v.a. drei Problemfelder: Rechte, Erfassung/Auswertung, Nutzung. Auch wenn mir Daten zur wissenschaftlichen Auswertung bereitgestellt werden, haben mir fast alle Rechteinhaber, darunter Archive sowie Privatpersonen, die elektronische Publikation (z.B. auf meinem Forschungsblog) oder die Weitergabe der Daten an Dritte untersagt. Jegliche Publikation der Daten kann daher nur bruchstückhaft bleiben. Dadurch entsteht eine erhebliche Schieflage des Erkenntnisgewinns, da ich nur solche Quellen allgemein zugänglich machen kann, deren Rechteinhaber ein - manchmal zweifelhaftes - Interesse an ihrer Publikation haben. Die vergleichende Auswertung der Daten wird in meinem Fall dadurch erschwert, da ich neben deutsch- und englischsprachigen Quellen auch mit japanisch- und chinesischsprachigem Material arbeite. Mir ist keine technische Infrastruktur bekannt, in der sich z. B. systematische Übersetzungsvergleiche durchführen ließen zwischen Quellen, die in mehreren lateinischen und nicht-lateinischen Schriften vorliegen. Die Schaffung und Bereitstellung solcher Infrastrukturen, die auch nicht-lateinische Schriften berücksichtigt, sind wesentlich für die Integration von Forschungsergebnissen aus den area studies in die Fachdisziplinen. Abschließend stellt sich für mich die Frage, warum ich zeit- und kostenintensiv zusammengetragenes, schwer zugängliches historisches Quellenmaterial ohne „incentives“ anderen Forschern zur Verfügung stellen sollte. Abhilfe könnte eine Übereinkunft schaffen, wonach Erstnutzer oder „Entdecker“ solcher Quellen, die einen erheblichen Beitrag zur Erschließung und Bereitstellung geleistet haben, in Arbeiten anderer Wissenschaftler genannt werden müssen und dies in der Forscher-Community als bedeutsame Forschungsleistung (ähnlich der Grundlagenforschung in Naturwissenschaften) Anerkennung findet. Das geschieht bisher nicht oder nur unzureichend. Stattdessen können sich etablierte Wissenschaftler mit besserem Zugang zu Publikationsoptionen bei der „Grundlagenforschung“ Anderer unbeschränkt bedienen, ohne dass dies als Plagiat geahndet wird, weil es sich um frei zugängliche Primärliteratur handelt. Hier müsste es an der Antrags- oder Publikationsschwelle (Verlage, Forschungsförderorganisationen etc.) einen Mechanismus geben, der dies verhindert und geisteswissenschaftliche Grundlagenforschung honoriert.

Posted on