Task Area 2

75 Sicherung und Aktualisierung von „älteren“ Datenbanken

< Back to problem stories

Vor gut 20 Jahren wurden in einem Forschungsprojekt sämtliche Vorstände und Aufsichtsräte deutscher Unternehmen der Jahre 1906, 1927, 1932, 1933 und 1954 in einer Datenbank erfasst. Das Ziel war es, wirtschaftliche und familiäre Vernetzung zu ermitteln und die Struktur der Wirtschaftselite in den Umbruchzeiten zu analysieren. Als Quelle standen die Handbücher der deutschen Aktiengesellschaften in mehreren Ausgaben zur Verfügung. Die Angaben wurden per Hand in eine „Filemaker“-Datenbank eingetragen. Im Laufe der Jahre musste die Datenbank mehrfach in gängigere Formate konvertiert werden, um sie les- und bearbeitbar zu halten. Im Zuge dessen ergaben sich entsprechende Übertragungsprobleme. In diesem Kontext ergeben sich folgende Fragen: a) Wir kann die dauerhafte Sicherung und Aktualisierung von älteren Datenbanken garantiert werden? Sollte es Software-Vorgaben bzw. Empfehlungen geben, um die Daten langfristig nutzbar zu halten? b) Bei der Eingabe der Daten wurden bestimmte Schlagwörter und Abkürzungen z.B. für Berufsbezeichnungen oder Titel vergeben. Es wäre sicher sinnvoll, solche Zuordnungen von Angaben zu Personen nach einem gemeinsamen Standard vorzunehmen, um die spätere Metasuche zu erleichtern. Wie kann dies gelingen?

Posted on

74 Kontrollierte Vokabulare und proprietäre Softwares

< Back to problem stories

Als Forschungseinrichtung müssen wir die Langzeitarchivierung der Forschungsdaten sichern aber sind von unseren proprietären Softwares auf verschiedenen Ebenen eingeschränkt. Zwar erlaubt unser Datenbanksystem die Daten laut verschiedenen Formaten (e.g. XML) und Schemata eines selben Formats (e.g. archivfachlichem XML-EAC) zu exportieren aber die innerhalb des Datenbanksystems bereits bestehenden Thesauri und Taxonomien können ohne (gebührenpflichtige) technische Betreuung nicht ausgeführt werden. Da die Migration aller Forschungsdaten zu einem neuen geeigneteren (Langzeitarchivierungs-)Gerät jedenfalls zeit-, arbeits- und kostenintensiv wäre, möchten wir dafür sorgen, dass nicht nur die Daten sondern auch die kontrollierten Vokabulare aufbewahrt werden sollen. Wie werden kontrollierte Vokabulare in den Geisteswissenschaften normgerecht freigemacht und langfristig archiviert?

Posted on

67 Nicht nur Daten, sondern auch Workflows

< Back to problem stories

Bei der Aufbereitung, Auswertung und Publikation von Forschungsdaten gibt es wiederkehrende Bearbeitungsschritte, die im Detail aber auch immer wieder leicht variieren können. Beispiel: Ich möchte meine Daten mit Hilfe von Named-Entity Recognition (NER)-Methoden semantisch anreichern. Das in einer Onlinedokumentation beschriebene Verfahren lässt sich jedoch nicht auf die Sprache meiner Quellen oder den für mich relevanten historischen Kontext anwenden. Gibt es ein einfach zu bedienendes Repositorium, in dem Wissenschaftler*innen ihre beispielhaften use-cases und Lösungsvorschläge publizieren können, so dass sie von anderen Wissenschaftlern nachgenutzt und gegebenenfalls um alternative Vorgehensweisen ergänzt werden können?

Posted on

66 Nachwuchsförderung / Digitale Edition

< Back to problem stories

Ich bin Nachwuchswissenschaftler*in und möchte das innerhalb meiner Qualifizierungsarbeit verwendete Quellenkorpus veröffentlichen. Die Daten liegen als TEI-XML vor. Neben der Veröffentlichung der Rohdaten soll aber auch eine Digitale Edition entstehen. Diese soll Basisfunktionen wie (parallele) Textansichten (Transkription, Kommentierter Text, Leseversion, Übersetzung, archivalische Vorlage in Form von Bilddigitalisaten) sowie die Erschließungen über Personen, Orte, Institutionen, Ereignisse und Schlagworte ermöglichen. Darüber hinaus möchte ich den im Datenkorpus auftretenden Personenkreis und seine Interaktionsnetzwerke grafisch visualisieren. Ich bin zwar technisch einigermaßen versiert, dennoch habe ich nicht das notwendige Knowhow, ein solches Projekt umzusetzen. Da ich weder fest an einer Forschungsinstitution angestellt bin noch über eine Drittmittelförderung verfüge, fehlen mir die Mittel für die technische Umsetzung wie auch für das anschließende langfristige Hosting der Edition.

Posted on

60 Historische Grenzen und Raumordnungen

< Back to problem stories

Unser Online-Quellenportal bietet neben Text- und Bildquellen auch eine Vielzahl von Karten, die die wechselnden Grenzen und politischen Einheiten des heutigen Deutschlands von der Frühen Neuzeit bis in die Gegenwart zeigen. Statt statischer Karten erwarten durch Google Maps und ähnliche Dienste geprägte Nutzer*innen von einem modernen Internet-Angebot zunehmend dynamische Karten, die das Heran- und Wegzoomen bestimmter Gegenden, dynamische Animationen von Grenzverschiebungen im zeitlichen Verlauf sowie die interaktive Einblendung von Zusatzinformationen wie etwa die Lebenswege bestimmter Personen unterstützen. Programmbibliotheken wie leaflet.js ermöglichen es, solche Funktionalitäten sowohl auf aktuellen Luftbildkarten als auch mit retro-digitalisierten historischen Karten im Hintergrund zu realisieren. Uns fehlt aber ein historisches Geoinformationssystem, das die häufig wechselnden Landes- und Gebietsgrenzen in Europa und insbesondere in Deutschland über die letzten Jahrhunderte (Altes Reich, Napoleonisches Zeitalter, Deutscher Bund, Reichsgründung, Weimarer Republik, Deutsche Teilung, Neue Bundesrepublik) mit den entsprechenden Territorien (Fürsten- und Herzogtümer, Königreiche, Bundesstaaten, (Bundes-)Länder und Bezirke) in passenden Formaten hinreichend exakt und unter einer freien Lizenz bereitstellt.

Posted on

58 Einsatz von Normdaten und kontrolliertem Vokabulare zur fachspezifischen Beschreibung von Forschungsdaten

< Back to problem stories

Als Forschungsdatenkurator möchte ich Normdaten und kontrollierte Vokabulare verwenden, um Forschungsdaten möglichst fachspezifisch und mit anderen Ressourcen integrierbar zu beschreiben. Normdaten wie insbesondere die GND wären für eine effiziente Erfassung von Autoren und Forschungseinrichtungen per Autovervollständigung sehr naheliegend. Leider fehlt dafür ebenso wie für den Einsatz kontrollierter Vokabulare oft eine Unterstützung durch die technischen Plattformen. So muss man z.B. im DataCite-Editor des DHVLab der LMU die GND-IDs umständlich über OGND heraussuchen und manuell in das Eingabeformular eintragen. Kontrollierte Vokabulare sollten möglichst im SKOS-Format eingebunden werden können, da viele relevante Klassifikationssysteme, Thesauri und Gazetteers in diesem Format vorliegen, wie etwa das für historische Forschung relevante HISCO oder ICONCLASS oder auch PeriodO als Verzeichnis historischer Perioden. Am ehesten scheint noch die Web Publishing-Plattform Omeka S mit dem Value Suggest-Modul diese Anforderungen zu erfüllen. Es wäre wünschenswert, wenn im Rahmen von 4Memory entsprechende Module für bestehende Systeme oder Eigenentwicklungen entstehen würden, die diese für die Metadatenkuration sehr naheliegenden Anforderungen erfüllen.

Posted on

56 Schulung und Beratung im Bereich Geoinformationssystem (GIS)

< Back to problem stories

Eine Forscherin möchte gerne Geodaten, die sie aus einem gedruckten Textkorpus extrahiert hat, auf einer interaktiven Karte visualisieren. Die Daten sollen anschließend als .csv für die Forschung zur Verfügung gestellt werden. Konkret steht sie vor der Frage, welche der zahlreichen angebotenen Tools für ihre Zwecke das Geeignetste ist oder ob etwas Eigenes programmiert werden muss. Wichtig ist ihr, die Geodaten auf einer historischen Karte zu zeigen, nicht auf einer aktuellen. Sie fragt sich auch, wie sie internationale Normdaten verwenden kann, welche internationalen Gazetteers/historische Ortslexika es bereits gibt und wie und wo die Webansicht sowie die Daten nachhaltig gespeichert werden können. Gerne würde sie sich von kompetenter Seite Rat holen und an einer Schulung zu GIS einerseits und einer Einführung in die Nutzung eines konkreten Tools - sofern für ihren spezifischen Zweck vorhanden - andererseits teilnehmen.

Posted on

55 Digitale Textanalyse in internationalen historischen Zeitungen

< Back to problem stories

Eine Gruppe von Forschenden möchte den sprachlichen Wandel rund um das Thema “Politikverdrossenheit” in internationalen historischen Zeitungen des 19. und 20. Jahrhunderts untersuchen. Die Zeitungen liegen in Teilen digitalisiert vor, allerdings auf unterschiedlichen, internationalen Plattformen. Nicht alle sind im Volltext erfasst. In Teilen gibt es sie nur gedruckt. Die Gruppe steht vor folgenden Problemen: • Wie kann sie die großen Mengen an Zeitungsartikeln unterschiedlicher Herkunft mit wenig Aufwand und unter Einhaltung des jeweiligen Urheberrechts zu einem Corpus zusammenfügen? • Wie kann sie das Corpus für die digitale Analyse vorbereiten und mit internationalen Normdaten anreichern? • Wie kann sie eine digitale Analyse des Corpus vornehmen? • Wo und wie können die Daten anschließend gespeichert werden, so dass die erarbeiteten Forschungsergebnisse nachvollziehbar sind?

Posted on

54 Projektbezug und Zusammenhang mit anderen Ressourcen herstellen

< Back to problem stories

Als Forschungsdatenkurator möchte ich ich Forschungsdatensätze und weitere Ressourcen miteinander verknüpfen, um den Entstehungszusammenhang und die Beziehungen zu weiterem Forschungsoutput sichtbarer zu machen. Eine Mindestanforderung ist dabei z.B. die Berücksichtigung der DataCite-Relationstypen IsReferencedBy, IsCitedBy und IsSupplementTo zur Verbindung von Forschungsdaten mit zugehörigen Forschungspublikationen, aber auch Relationen wie IsDerivedFrom, IsSourceOf und IsVersionOf, die den Entstehungszusammenhang zwischen Datensätzen beschreiben. Die Verknüpfung der Ressourcen würde idealerweise mit einem (auch für die datengebenden Fachwissenschaftler einfach zu benutzenden) graphischen Editor stattfinden. Die bisher einzige Open Source-Lösung dafür scheint allerdings die mittlerweile veraltete Erweiterung ckanext-lire (LInked RElationships) für CKAN zu sein (siehe auch zugehörigen Konferenzbeitrag). Wichtig für ein Werkzeug zur Kontextualisierung von Forschungsdatensätzen wäre auch die Einbindung von Forschungsinformationssystemen bzw. auch Bibliothekskatalogen. Insbesondere der Projektkontext könnte durch die Anbindung eines Forschungsinformationssystems hergestellt werden. In Bibliothekskatalogen erfasste Publikationen können über deren DOI oder auch ISBN bzw. den permanenten Links zu den entsprechenden Katalogeinträgen verlinkt werden. Idealweise wird die Verknüpfung von Datensätzen und Publikationen durch Linked Data unterstützt. Für den Projektkontext kommen dazu Ontologien wie PROV-O, FRAPO, VIVO-ISF oder auch die Scholarly Ontology in Frage.

Posted on

53 Datendokumentation zur Nachvollziehbarkeit der Aufbereitung von Forschungsdaten

< Back to problem stories

Als Forschungsdatenmanager oder Forscher möchte ich den Entstehungsverlauf meiner Forschungsdaten im Forschungsprozess genau dokumentieren, um die Verarbeitungsschritte nachvollziehbar zu machen und die Arbeitsabläufe zur Erstellung und weiteren Verarbeitung darüber hinaus als Vorlage für spätere, ähnliche Projekte festzuhalten. Ein typischer Workflow ist beispielsweise die Annotation und Identifikation von in Textquellen genannten Entitäten (Personen, Organisationen, Orte, Ereignisse, Begriffe, usw.) mit Named Entity Recognition- und Named Entity Disambiguation-Werkzeugen oder insbesondere auch die Reconciliation von Entitäten in tabellarischen Daten (etwa zur Harmonisierung historischer Zensusdaten) – z.B. mit dem Tool OpenRefine. Wichtig dabei ist eine Dokumentation der Aufbereitung der Forschungsdaten möglichst schon während des Forschungsprozesses: Wer hat was mit welchem Werkzeug und mit welcher Zuverlässigkeit angereichert? Ideal wären dazu Plattformen, die eine Dokumentation der Arbeitsschritte zur Erstellung und Anreicherung der Forschungsdaten gemäß Datenmanagementplan (DMP) – d.h. Forschungsdatenmanagement-Workflows im “life cycle of historical information” (siehe dazu https://doi.org/10.3233/SW-140158) – unterstützt. Für eine spätere Nachnutzung der Daten ist eine ausführliche Datendokumentation wichtig zur Suche nach relevanten Forschungsdaten (z.B. anhand der verwendeten Datenmodelle und Standards wie SDMX, RDF Data Cube und SKOS für Kodierlisten in statistischen Daten) und zur Einschätzung der Qualität der angereicherten Daten (z.B. bei der Zusammenstellung und Integration von kodierten Daten zur statistischen Analyse).

Posted on