Task area

13 Anreize schaffen für Datenpublikationen?

< Back to problem stories

Als Projektverantwortliche im Bereich "Dateninfrastruktur und Digital Humanities" ist es Teil meiner Aufgabe, aber auch mein Wunsch, meine Kolleginnen und Kollegen beim Erstellen und Veröffentlichen von Datenpublikationen zu ermutigen. Momentan gestaltet sich das vor allem deswegen schwierig, weil wir erstens immer noch nach den richtigen Formaten suchen, aber zweitens auch, weil Anreizstrukturen fehlen. Datenpublikationsformate werden insbesondere in der Geschichtswissenschaft noch nicht mit der gleichen Anerkennung versehen wie traditionelle Formate. Vielleicht würde hier eine Community-weite oder zumindest Community-unterstützte Plattform helfen, solche Anreiz- und Anerkennungsstrulturen zu schaffen. Vielleicht könnte man auch an Workshops oder dergleichen denken.

Posted on

12 FactGrid und das fehlende breitenwirksame Wikibase-Frontend

< Back to problem stories

Wir erfassen mit dem FactGrid Daten und helfen Partnern auf der Plattform. Die Software erweist sich dabei als so attraktiv, dass Mitspieler des In- und Auslands zurzeit von selbst an uns herantreten, um bei uns Datensätze in Wikibase laufen zu lassen.
Unsere zentralen Probleme liegen im Moment in der Bedienung der Software, die für Wikidata ein unmittelbar auf die Dateneingabe und das Datamining ausgerichtetes Interface nutzt.
Verbesserungsbedürftig ist einerseits die Dateneingabe: Es müsste möglich sein, Open Refine serverseitig laufen zu lassen und auf die mitdenkende Software hin zu arbeiten, die noch vor der Eingabe großer Datenmengen auf bereits vorliegende Informationen (etwa bei deckungsgleichen Verwandtschaftsbeziehungen)verweist, und die so die Arbeit mit der vorhandenen Information erleichtert.
Wichtiger noch ist für uns im Moment der Schritt in eine dezidierte Datenpräsentation.
Magnus Manske’s „Reasonator“, Markus Krötzschs „Squid“, zeigen das Potential der Software auf, mit der sich eine Wikibase-Datenbank bis an den Punkt nutzen lässt, an dem sie Wikipedia Konkurrenz macht – mit dem Vorteil, dass dabei plötzlich eine einzige multilingual verwaltete Datenlage in verschiedenen Sprachen nutzbar wird. Es ist dies ein Entwicklungsweg, den Wikimedia nicht prioritär verfolgt und auf dem wir uns derzeit mit Partnern wie der DNB bewegen.
In der bis auf Weiteres misslichen Lage sprechen wir Nutzer derzeit nur sehr provisorisch mit exemplarischen, modifizierbaren Suchangeboten an, von denen aus sie sogleich in die bearbeitbaren Datensätze geleitet werden – so im aktuellen Projekt, das Thüringens Pfarrerbuch bei uns verfügbar macht: https://blog.factgrid.de/archives/1923. Das Ziel sind Nutzeroberflächen wie Uwe Jung sie für die FH-Potsdam im Umgang mit Wikidata erarbeitete (https://blog.factgrid.de/archives/1215).
Hier befinden wir uns in Gesprächen mit Partnern, die auf dieselbe Software setzen sowie mit Wikimedia, mit dem Ziel einer open source Lösung, von der alle Wikibase Plattformen profitieren würden. Die Vernetzungsangebote des NFDI-Prozesses sind dabei von fast noch größerem Interesse als Entwicklungsetats.

Posted on

11 Adaption des IIIF-Standards für Audio-, Video- und 3D-Daten

< Back to problem stories

Die anbieter- und systemunabhängige Nutzung digitaler/digitalisierter Quellen in der eigenen Forschungsumgebung wird durch die IIIF-Standards unterstützt. Als Bibliothek würden wir gerne auch unsere digitalisierten Audio-, Video-, und 3D-Daten ebenso wie die text-/bildbasierten Quellen über IIIF anbieten können. Für eigene großangelegte Standard- und Softwareentwicklungen fehlen aber die Kapazitäten an unserer Einrichtung ohne Entwicklungsabteilung. Wir brauchen einen Rahmen, in dem wir uns mit Anforderungen aktiv in die Standard- und Softwareentwicklung einbringen können und zugleich eine starke Partnereinrichtung, die in der Lage ist diese Arbeiten auch auszuführen.

Posted on

10 Erstellung und Mapping von Referenzvokabularen

< Back to problem stories

Als Spezialbibliothek erzeugen wir mit OCR Volltexte unserer digitalisierten Quellen für die Forschung. Mit digitalisierten und auf Lemma-Ebene erschlossenen Fachlexika (19. Jh) verfügen wir über zeitspezifisches Vokabular. Bislang fehlt es an Kapazitäten, dieses Vokabular als Gazetteer oder Ontologie aufzubereiten und für die automatische Analyse der Volltexte zur Verfügung zu stellen, also Vokabulare als Forschungsdateninfrastrukturleistung zu entwickeln. Weder für die Infrastrukureinrichtung (Bibliothek) noch für Wissenschaftler*innen existieren günstige Rahmenbedingungen (Finanzierung, wissenschaftliche Anerkennung) für solche fachlich spezialisierte Infrastrukturleistungen an der Schnittstelle zwischen historischer Subdisziplin, Informationswissenschaft und Data Science.

Posted on

9 Archivquellen – Zusammenarbeit mit vielen unterschiedlichen Archiven

< Back to problem stories

In einem größeren Forschungsprojekt arbeite ich mit Quellen ganz unterschiedlicher Provenienz, z.B. aus Zeitungsdatenbanken (Online-Archive von "Der Spiegel", "Die Zeit", aber auch Zeitungen aus dem Ausland; daneben Fernseh- und Rundfunk-Archive, das Bundesarchiv etc. Ich werte Zeitungsartikel, Protokolle von Bundestagsreden, Akten aus verschiedenen Ministerien, Fernsehserien u.v.m. als Quellen aus, und zwar qualitativ. Wie kann ich daraus einen Quellenkorpus machen, der so einheitlich ist, dass er sich irgendwie zur Nachnutzung aufbereiten lässt? Und wie kann ich die Archive, die ja die Rechteinhaber sind, mit ins Boot holen? Meine Idealvorstellung wäre ein E-book, in dem alle Quellenangaben in den Fußnoten "klickbar" sind, d.h. man kommt mit einem Klick zum Original.

Posted on

7 Lizenzen

< Back to problem stories

Als Lehrstuhl einer Hochschule forschen wir auch mit und an Werkzeugen aus dem Bereich der automatisierten Auswertung von Datenbeständen. Ein wesentlicher Teil der Datenbestände sind digitalisierte Textkorpora, die zumeist in einem Textformat, wie beispielsweise XML, vorliegen, die aber für die Analysen in andere Dateiformate konvertiert werden müssen. Einige der Korpora unterlagen und unterliegen einer Lizenzpflicht. Dies bedeutet, sie dürfen nur dann von einer Person benutzt werden, wenn deren Institution (zum Beispiel über die UB) oder sie selbst eine kostenpflichtige Lizenz erworben hat. Die Lizenzen sind meist zeitlich begrenzt.
Um die Analyseergebnisse der automatisierten Auswertung der Textbestände nach den FAIR-Prinzipien langfristig zur Verfügung zu stellen, ist es notwendig, die Rohdaten, also die Korpora selbst, einzubeziehen. Es ist für uns schwer nachvollziehbar, welche praktischen Konsequenzen § 60d Urheberrechtsgesetz, speziell Absatz 3, für die Ausgestaltung dieser Prinzipien bei Textkorpora hat, die einer Lizenzpflicht unterlagen oder noch unterliegen. Einerseits soll das Korpus und dessen Vervielfältigungen nach Abschluss der Forschungsarbeiten gelöscht werden, andererseits darf es von den in den §§ 60e und 60f genannten Institutionen dauerhaft aufbewahrt werden. Zu den in 60f benannten Bildungseinrichtungen gehören laut Definition in § 60a Absatz 4 beispielsweise auch Hochschulen. Nach dieser Lesart dürften die Korpora und deren Vervielfältigungen auf hochschuleigenen Servern dauerhaft gespeichert werden. Das Aufbewahren an sich ermöglicht jedoch noch nicht den Zugang, da dieser nur über eine Bezahlschranke möglich ist. Ohne eine gültige Lizenz darf der Zugang zu den Rohdaten nicht gewährt werden.
Es erscheint insgesamt fragwürdig, wie die Qualität wissenschaftlicher Forschung bei automatisierten Analyseverfahren überprüf- und nachnutzbar gehalten werden kann, wenn ein wesentlicher Bestandteil der Forschung, die Rohdaten selbst, nicht zugänglich gemacht werden darf bzw. bei Nachnutzung durch den Erwerb einer Lizenz erst „hinzugekauft“ werden muss.

 

Task Area

Perspective

Tags

Posted on

6 Archivische Forschungsdaten massenhaft mit zukunftsfähigen Normdaten anreichern

< Back to problem stories

Als Archiv stellen wir massenhaft Erschließungsinformationen zu Archivgut im Sinne von primären Forschungsdaten im Internet bereit. Diese und weitere, noch nicht online veröffentlichte digitale Erschließungsinformationen liegen in sehr großer Zahl und unterschiedlicher Datenqualität vor. Eine Herausforderung ist die nachträgliche Anreicherung mit zukunftsfähigen Normdaten im Interesse einer vernetzten Recherche. Dabei bestehen zwei weisentliche Herausforderungen:
1. Benötigt werden Tools zur nachträglichen, automatisierten Anreicherung von Erschließungsinformationen in Archivinformationssystemen und den daraus zu exportierenden Onlineressourcen.
2. Während für Personen mit der GND ein anerkanntes Normdatensystem bereits institutionenübergreifend anerkannt ist, fehlt hinsichtlich von Geografika, Regional- und Gebietseinheiten noch eine vergleichbare Verbindlichkeit (z.B. GND, Amtliche Gemeindeschlüssel, Georeferenzierung).

Posted on

5 Sicherung der Nachhaltigkeit von MyCoRe-Daten

< Back to problem stories

An meiner Institution baue ich seit 2012 ein umfangreiches Informationssystem im MyCoRe System auf. Um das System dauerhaft nutzbar zu halten, ist in den nächsten Monaten dringend ein systemtechnisches Update des Informationssystems nötig, d.h. es müsste auf die nächste Version von MyCoRe übertragen werden.
Hierzu sind Mittel in Höhe einer halben Informatikerstelle für ein halbes Jahr nötig, Kapazitäten, die weder bei mir am Lehrstuhl noch im Rechenzentrum unserer Universität vorgehalten werden. Nun ist MyCoRe in Deutschland recht gebräuchlich, es kommt in rund 70 Anwendungen zum Einsatz, wo wahrscheinlich ähnliche Bedarfe anfallen. Meine Frage ist, ob hier nicht in punkto Finanzierung, Aufbau einer Koordinationsstelle und technische Umsetzung eine anwendungsübergreifende Lösung bereitgestellt werden könnte, die es den individuellen Projektleitern auf einfachere Weise ermöglichen würde, diese Updates durchzuführen.

Posted on

4 Wie kann unser Portal mit wertvollen Forschungsdaten in zehn Jahren noch benutzt werden?

< Back to problem stories

Als Verantwortlicher für die digitale Bereitstellung der Forschungsergebnisse in einer außeruniversitären Forschungseinrichtung bin ich für das langfristige Angebot, die Bereitstellung und Verfügbarkeit der Daten verantwortlich. Wir bieten online Themenportale mit Forschungsdaten an, die in der Regel über eine Suchmaske und einen Index erschlossen sind und z.B. auch im Kontext einer Karte angezeigt werden können. Wir möchten sicherstellen, dass die Daten auch noch in zehn oder 20 Jahren verwendet werden können, und zwar mit den Verknüpfungen und Querverweisen, die wir über die bei der Bereitstellung verwendeten Software erzeugen. Zwar nutzen viele Projekte inzwischen XML kodierte Daten nach dem TEI Standard, aber die Software zu Bereitstellung der Daten und einer benutzerfreundlichen Umgebung muss permanent gepflegt und angepasst werden, um z.B. Sicherheitsupdates in der verwendeten Software oder den Programmiersprachen zu gewährleisten. Zudem bestehen vielfältige Abhängigkeiten zwischen den verwendeten Programmpaketen. Teilweise werden die Daten auch unter Verwendung von Content Management Systemen angeboten oder sind darin eingebettet. Wie können wir sicherstellen, dass unsere Themenportale, die teilweise Ergebnisse jahrzehntelanger Forschungsarbeit präsentieren und bereitstellen, auch in Zukunft für Forscherinnen und Forscher mit einem individuell zum Thema passenden und die spezifische Datenstruktur abbildenden Interface nutzbar sind?

Posted on

3 Archiv-Metadaten in XML-Format verfügbar machen

< Back to problem stories

Metadaten in Archivportalen bzw. in den Online-Findmitteln der Archive liegen als strukturierte Daten in den dahinter liegenden Datenbanken. Die Struktur der Metadaten folgt meistens dem internationalen Erschließungsstandard ISAD(G) mit dem dazu korrespondierenden Metadatenschema EAD. Dennoch lassen sich Archiv-Metadaten meistens nicht in strukturierter Form als XML-Datei, bspw. im EAD-Format, herunterladen und weiter verwerten, z.B. in ein Literaturverwaltungsprogramm einfügen: 1. weil die erforderliche Funktion von den Archivportalen/Online-Findmitteln nicht bereit gestellt wird, 2. weil die Literaturprogramme das EAD-Format nicht unterstützen. Auch die denkbare datenbankgestützte Auswertung dieser Metadaten hat entsprechend ihre Grenzen. Derzeit lassen sich in manchen Archivportalen/ Online-Findmitteln die Archiv-Metadaten als PDF-Dokument ausdrucken.
Zielstellung: strukturierte Archiv-Metadaten lassen sich in Literaturverwaltungsprogramme importieren, am besten zusammen mit einem verfügbaren Digitalisat. Erforderlich sind dazu aber nicht nur Metadaten zu dem Objekt selbst, sondern auch die Kontextinformationen sowie die Metadaten zu dem Digitalisat selbst.

Posted on