Forschungsdatenmanagement-Workflow

59 Sicherung der einheitlichen Erfassung von Metadaten für Forschungsdaten

< Back to problem stories

Als Forschungsdatenkurator möchte ich die einheitliche Beschreibung von Forschungsdaten mit Metadaten durch die Forschenden kontrollieren und sichern, um die Forschungsdaten möglichst gut wiederauffindbar zu machen. Wie gewährleiste ich eine einheitliche Beschreibung von Forschungsdaten, die von verschiedenen Wissenschaftlern aus verschiedenen disziplinären aber auch interdisziplinären Arbeitsgruppen kommen? Eine brauchbare technische Plattform, die mich beim Einrichten von Workflows für Metadaten-Review bzw. Qualitätskontrolle der Daten und Metadaten unterstützt, scheint es derzeit noch nicht zu geben.

Posted on

53 Datendokumentation zur Nachvollziehbarkeit der Aufbereitung von Forschungsdaten

< Back to problem stories

Als Forschungsdatenmanager oder Forscher möchte ich den Entstehungsverlauf meiner Forschungsdaten im Forschungsprozess genau dokumentieren, um die Verarbeitungsschritte nachvollziehbar zu machen und die Arbeitsabläufe zur Erstellung und weiteren Verarbeitung darüber hinaus als Vorlage für spätere, ähnliche Projekte festzuhalten. Ein typischer Workflow ist beispielsweise die Annotation und Identifikation von in Textquellen genannten Entitäten (Personen, Organisationen, Orte, Ereignisse, Begriffe, usw.) mit Named Entity Recognition- und Named Entity Disambiguation-Werkzeugen oder insbesondere auch die Reconciliation von Entitäten in tabellarischen Daten (etwa zur Harmonisierung historischer Zensusdaten) – z.B. mit dem Tool OpenRefine. Wichtig dabei ist eine Dokumentation der Aufbereitung der Forschungsdaten möglichst schon während des Forschungsprozesses: Wer hat was mit welchem Werkzeug und mit welcher Zuverlässigkeit angereichert? Ideal wären dazu Plattformen, die eine Dokumentation der Arbeitsschritte zur Erstellung und Anreicherung der Forschungsdaten gemäß Datenmanagementplan (DMP) – d.h. Forschungsdatenmanagement-Workflows im “life cycle of historical information” (siehe dazu https://doi.org/10.3233/SW-140158) – unterstützt. Für eine spätere Nachnutzung der Daten ist eine ausführliche Datendokumentation wichtig zur Suche nach relevanten Forschungsdaten (z.B. anhand der verwendeten Datenmodelle und Standards wie SDMX, RDF Data Cube und SKOS für Kodierlisten in statistischen Daten) und zur Einschätzung der Qualität der angereicherten Daten (z.B. bei der Zusammenstellung und Integration von kodierten Daten zur statistischen Analyse).

Posted on