Task area

95 Suchen von digitalisierten Zeitungen und Zeitschriften

< Back to problem stories

Ich beschäftige mich mit Schriftstellerinnen um 1820 und recherchiere nach Artikeln dieser Frauen in Zeitungen und Zeitschriften. Bibliotheken bieten ihre digitalisierten Bestände auf eigenen Plattformen an. Als Bibliothekarin verstehe ich die Angebote, als Forschende habe ich jedoch eine andere Sicht. Bibliothekssicht: Wir bieten eine einfache Suche und eine erweiterte Suche auf unserer Plattform. Forschende: Ich suche eher bei https://de.wikisource.org, welches Heft, welche Ausgabe digitalisiert vorliegt. Dann erst betrete ich das digitale Angebot einer Bibliothek. Der Ansatz von Bibliotheken nun häuserübergreifende digitale Plattformen für Zeitungen und Zeitschriften aufzubauen, scheint seltsam, da es dieses Angebot mit wikisource eigentlich bereits gibt. Hilfreich wäre es, sie würden ihre Daten dort einpflegen.

Posted on

94 Tiefenerschließung von digitalisierten Urkundenbüchern

< Back to problem stories

In einem Regional-Portal, das von einem Institut betrieben ist, dessen historischen Bereich ich leite, ist unter anderem ein landesgeschichtliches Urkundenbuch eingestellt. Es besteht aus derzeit 27 gedruckten Bänden, deren Volltext-Urkunden in digitalisierter Form bandweise und innerhalb dessen nach Urkundennummern abrufbar sind. Die gedruckten Register sind beigegeben, doch gibt es keine elektronische Verknüpfung der Registereinträge mit dem Textteil. Suchmöglichkeiten in den Daten bestehen derzeit nicht. Um die Nutzbarkeit des Urkundenbuchs in zeitgemäßer Weise zu erhöhen, bieten sich zwei Wege an: 1) Der Aufbau einer bandübergreifenden Volltextsuche – idealerweise mit Booleschen Operatoren, schreibweisentolerant und mit Umgebungs- und Phrasensuchmöglichkeit etwa nach den Vorbildern der »Library of Latin Texts« oder der »Migne«-Datenbanken. Doch wären in diesem Fall sehr hohe Investitionen in die notwendige IT erforderlich. Zudem zielt das landesgeschichtliche Interesse auch weniger auf die Durchsuchung des Wortschatzes als auf die enthaltenen historischen Orte und Personen. An dieser Stelle bieten sich – Weg 2) – die gedruckten Register an, in denen ein beachtlicher Teil der historisch-kritischen Arbeit der Herausgeber überliefert ist, die nun auch für die Online-Fassung des Urkundenbuches genutzt werden könnte. Dazu müssten allerdings – so stellt sich das Problem derzeit für uns dar – die Orts- und Personennamensregister jedes der 27 Bände händisch in eine datenbanktaugliche Form (Excel-Dateien) überführt werden. Anschließend würden die erfassten Registereinträge mit den bereits vorhandenen, online gestellten Bilddateien der Urkunden verlinkt. Schließlich könnten die digitalisierten und verlinkten Registereinträge der einzelnen Bände zu einer Gesamt-Datenbank verbunden werden. NutzerInnen könnten dann bandübergreifend von lediglich einem einzigen Suchportal aus nach Orts- und Personennamen recherchieren und die Suchergebnisse gesammelt abrufen. Bei Weg 2) fielen allerdings ähnlich wie bei Weg 1) hohe Kosten an –vor allem aufgrund der benötigten Arbeitszeit, was die Erreichung des Ziels auch hier in Frage stellt (Blocker: Ressourcenaufwand). Mögliche technische Lösungen: Gibt es beispielweise OCR-Technik für die Aufschlüsselung von komplex strukturierten Registern und für die Verknüpfung der dort genannten Nummern mit den zugehörigen Textdokumenten?

Posted on

93 Wikidata-Abgleich

< Back to problem stories

Ein außeruniversitäres, landesfinanziertes Forschungsinstitut, dessen geschichtswissenschaftlichen Bereich ich leite, betreibt ein regionales Online-Datenportal mit mehreren thematischen Angeboten. Dazu gehört auch eine ortsgeschichtliche Datenbank, die ca. 6000 Siedlungen der Referenzregion mit thematisch geordneten Kerndaten ihrer Geschichte vom Mittelalter bis zu Gegenwart umfasst. Der in diesem digitalen historischen Ortsverzeichnis benutzte Code wurde mittlerweile als Eigenschaft in Wikidata angelegt und wird bei vielen Orten auch bereits benutzt. Wir unterstützen diese Verlinkung mit Wikidata und arbeiten aktiv daran mit, weil wir der Ansicht sind, dass Wikidata bei der digitalen Datenverwaltung weltweit eine Schlüsselposition gewonnen hat und, was von zunehmender Bedeutung ist, den automatischen Datenaustausch zwischen Datenbanken enorm erleichtert. Um gleichwohl auch einen von Wikidata unabhängigen Qualitätsmaßstab der eigenständig erhobenen Forschungsdaten zu wahren, halten wir es für sehr wichtig, ein Abgleichs-Tool zwischen den eigenen Daten und den Wikidata-Daten zur Verfügung zu haben und zu nutzen. Über unser eigenes Projekt hinaus entspricht ein solches Tool aus unserer Sicht den allgemeinen Zielen einer nationalen Dateninfrastruktur. Unsere Suche nach geeigneten Tools war bisher ergebnislos (Blocker). Wir haben die Hoffnung, dass die NFDI-Initiative mit ihrer Koordinations-Aufgabe bei der Etablierung von Standards in diesem Bereich eine zentrale Rolle spielen könnte.

Posted on

92 Metadaten aus Forschungsprojekten: Singuläres vs. Standardisierung. Zum Problem der kategorialen Erschließung von Daten

< Back to problem stories

Auch im Bereich der philosophiehistorischen Grundlagenforschung wird zunehmend die Digitalisierung von Daten (Editionen, Zeitschriften, Kompendien, Archive) vorangetrieben. Dabei stellt sich die Frage, wie die entstehenden Datenmengen auszuwerten sind. Neben der Überlegung zu den technischen Möglichkeiten tritt auch ein hermeneutisches Problem: Wie ist ein sinnvoller kategorialer Zugriff auf die Daten möglich? Die klassischen Werkzeuge sind: Kategorien, Termini, Begriffe usw., aber auch Textsorten (Monographie, Zeitschriftenbeitrag, Nachlassmaterial usw.). Neue Werkzeuge des distant readings treten hinzu, bspw. die Makroanalyse, die computerbasierte Formanalyse von Textualität usw. In diesem Zusammenhang fehlt es bisher an einem Forum für eine vorgeschaltete Methodenreflexion. Es scheint kein guter Rat zu sein, ein Maximum an Werkzeugen in der Analyse der Datenmengen anzuwenden, oder sich ohne weiteres gegen die alten und für die neuen Werkzeuge zu entscheiden. Ein Vorteil der qualitativen Datenanalyse war und ist, dass singuläre Einheiten (Episoden) der Philosophiegeschichte bewahrt werden konnten; ein Nachteil der quantitativen Analyse könnte sein, dass im Verfahren der Standardisierung die Möglichkeit qualitativer Differenzierung von Episodischen und Generalisierendem verloren geht. Darüberhinaus besteht auch die Gefahr, dass durch die Erfassung der Daten im Prozess der Digitalisierung die alten Wissensspeicher - wie bspw. Lexika der Wörter, Begriffe, Metaphern, Kompendien systematischer und historischer Fragen an die Philosophiegeschichte - für obsolet erklärt werden und die Suggestion der für sich selbst sprechenden Daten (der alte "Mythos der Gegebenheit") sich festsetzt. Um hier Klarheit zu schaffen, sollte es als eine dringliche Aufgabe markiert werden, einen Weg zu finden, die alten und die neuen Werkzeuge zu kombinieren und andere Methoden, eventuell verscuhsweise Hybrid-Methoden zu entwickeln. So ist davon auszugehen, dass bspw. ein Historisches Wörterbuch der Philosophie (Erstauflage in den 1970er Jahren) für eine Neubearbeitung seinen Werkzeugkasten neu bestücken wird. Was das heißt und wie unsere Forschung als historisch arbeitende Geisteswissenschaftler*innen nicht nur in der Philosophie, sondern auch in den benachbarten Wissensdisziplinen aussehen wird, vor welchen Herausforderungen/ Möglichkeiten wir stehen und wie ein angemessener hermeneutischer Zugriff auf die digitalisierten Datenmengen (for Memory!) aussehen kann, darüber sollte eine Debatte stattfinden.

Posted on

91 Im Forschungsverbund – Der steinige Weg zum Geodaten-Repositorium

< Back to problem stories

Als An-Institut einer Universität sind wir Akteur in einem langhin etablierten Verbund unabhängiger Projekte der Grundlagenforschung, die zum Nutzen der interdisziplinären Städteforschung historisches Kartenmaterial edieren. Nach wie vor sind Printprodukte der traditionelle Output. Inzwischen aber haben sich Geoinformationssysteme (GIS) in den benachbarten Arbeitsbereichen Geografie und Archäologie so weit durchgesetzt, dass die Umstellung der Projektarbeiten von konventioneller Zeichensoftware hin zu GIS der nächste logische Schritt war, zumal dies auch eine Ausgangsbasis dafür bot, online die Verbreitung der Arbeitsergebnisse aus den Projekten zu verbessern. Bei der Koordinierung dieses Übergangsprozesses innerhalb des Forschungsverbundes, die bei uns im Haus erfolgt, treten für die internationale Scientific Community vielfältige Herausforderungen zutage. Während verschiedene Projekte in experimentellen Schritten die Datenproduktion erfolgreich auf Geodaten umgestellt und in Workshops ihre Ergebnisse verglichen haben, ist deutlich geworden, dass die anfänglichen ‚handwerklichen‘ Startschwierigkeiten (Knowhow, User Skills) tieferliegende, wissenschaftliche Probleme überdeckten. Unser Ziel der Schaffung eines domänenspezifischen (aber disziplinenübergreifenden) Forschungsdaten-Repositoriums für die Dissemination der Projektgeodaten, verstärkt dies noch. Einerseits ist der Schritt hin zu einem ‚Forschungsdatenbewusstsein‘ in der Scientific Community und zu einer Kultur, die neben der Datenproduktion auch die Bereitstellung der Basisdaten für die interdisziplinäre, länderübergreifende und vergleichende Forschung mitplant, größer als gedacht. Andererseits macht sich der Mangel an Standards für die Produktion und Verwendung von Geodaten in den Geschichtswissenschaften bemerkbar. Auch in diesem ‚Digital Turn‘, der primär die Historischen Grundwissenschaften Kartografie und Geografie tangiert, mündet die Quellenproblematik (Uneinheitlichkeit der Quellenüberlieferung, Uneindeutigkeit der Quellenbefunde) direkt in eine Datenproblematik. Etablierte Metadatenstandards müssen zudem für Geodaten mit historischem Bezug angepasst werden. Die Schaffung einer gemeinsamen Ontologie in einem angeschlossenen Forschungsprojekt steht vor eigenen inhaltlichen Herausforderungen. Letztlich wird ihre Verwendung im Repositorium dabei helfen, die Vergleichbarkeit der Daten über Disziplinen- und Ländergrenzen hinweg herzustellen, jedoch ist ihre Berücksichtigung im Workflow der Datenproduktion innerhalb der einzelnen Projekte eine weitere Hürde.

Posted on

90 Grenzen des Machbaren

< Back to problem stories

WissenschaftlerInnen kennen das Problem, nicht aufhören zu können, aus vielen Bereichen: Wann ist ein Buch abgeschlossen? Wann ist genügend Literatur recherchiert? Wann ist der letzte Wörterbuchbeleg gefunden? Beim Aufbau digitaler Ressourcen stellt sich dieses Problem nicht anders, aber besonders. Ich arbeite in einem Projekt, das kodikologische Basisdaten sammelt. Doch was sind Basisdaten? Gehören Wasserzeichen, Provenienz, Illustrationsbeschreibungen dazu? Die potentielle Menge des Verzettelbaren ist scheinbar unbegrenzt. Dass damit weder dem Projekt noch den Benutzern ein Gefallen getan ist, weiß man zwar, doch die reine Möglichkeit verleiht den Handlungsdruck, immer weitere Daten aufzunehmen. TEI-BenutzerInnen werden das Problem ebenso kennen: Wie tief findet die Auszeichnung statt? Die Möglichkeit gewinnt den Charakter eines Wettlaufs von Hase und Igel. Man kommt nie hinterher, egal wie sehr man sich bemüht. Handelt es sich nur um ein psychisches Problem (der "geile Drang auf große Ganze", wie Benjamin sagte) oder um ein systembedingtes, dem auch mit klareren Prozessen beizukommen wäre?

Posted on

89 Thesaurus für ein Digitalisierungsprojekt

< Back to problem stories

Ein Digitalisierungsprojekt aus dem Bereich deutsch-jüdische Geschichte möchte die von ihm erschlossenen Quellen nicht nur chronologisch (Entstehungsdatum) und räumlich (Entstehungsort) sondern über die darin erwähnten Personen und Geografika hinaus auch thematisch einordnen. Dabei stellt sich die Frage nach einer passenden Systematik. Universalklassifikationen wie etwa die Dewey Decimal Classification erweisen sich als zu grob, um wichtige Themen im Quellenbestand wie z.B. die Hachschara (Vorbereitung auf die Auswanderung nach Palästina) zu erfassen. Solch passgenauen Sachbegriffe bietet umgekehrt die GND, allerdings nicht in Form eines hierarchischen Thesaurus. Für ein Online-Angebot bietet sich aber eine Baumstruktur an, da diese im Gegensatz zu einer flachen Verschlagwortung auch das hierarchische Browsing der Inhalte bzw. die schrittweise Facettierung von Suchergebnissen unterstützt. Für die erfolgreiche Projektdurchführung mit einer geeigneten Nutzerführung, zur Vermeidung von Doppelspurigkeiten und im Rahmen einer späterere Integration unserer Projektergebnisse in größere Quellenportale wie etwa die DDB oder die Europeana bräuchten wir Unterstützung bei den folgenden Fragen: • Gibt es evtl. Vorarbeiten von anderen Institutionen, an die wir anknüpfen können? Wie können wir umgekehrt unsere Klassifikationen zur Weiternutzung anbieten? • Wie strukturen wir unsere Metadaten, damit die von uns vergebenen Klassifikatoren ohne aufwändiges Mapping in bestehende oder neue Verbundangebote integriert werden können? • Wie gehen wir mit fehlenden Begriffen um? Wie kann sichergestellt werden, dass diese in bestehende Normdatenbestände wie die GND einfließen können? • Könnte ein Projekt aus dem Museumsbereich wie digiCULT x-tree (https://www.digicult-verbund.de/de/digicultxtree) mit dem bestehenden Vokabular in einer Datenbank zusammengeführt werden, ein Vorbild sein oder gar eine Ausgangsbasis bilden?

Posted on

87 Probleme bei Erfassung und Verarbeitung historischer Datumsangaben

< Back to problem stories

Das Entstehungsdatum einer Quelle anzugeben, ist nicht einfach, denn es ist nicht immer direkt auf Quellen verzeichnet. So hat man ggf. kein exaktes Tagesdatum, kann dieses nur aus Kontexten erschließen (z.B. aus Ereignis- oder Feiertagsangaben) oder nur anmerken, dass es um, vor oder nach einem anderen Datum entstanden ist. So können manchmal nur Jahreszahlen oder Monate angeben werden, ggf. mit einer zusätzlichen Angabe wie Anfang, Mitte oder Ende des Zeitraums, den man erschlossen hat. Datenbanken auf der anderen Seite erfordern ein exaktes Datum in der Form JJJJ-MM-TT. Nur dann können diese Daten weiterverarbeitet und z.B. für Suchzugriffe oder Sortieralgorithmen genutzt werden. Ein weiteres Problem ist, dass Standardisierungen nicht auf historische Belange angepasst sind. Die Unixzeit, die jedes Datum in Sekunden ab dem 1. Januar 1970 umrechnet, wird von vielen Computerprogrammen zur Datumsberechnungen verwendet. In der Microsoft-Welt werden alle Daten ab dem 1. Januar 1900 unterstützt. Die Norm ISO 8601 gilt nur für Daten ab 15. Oktober 1582. Für Daten davor müssen die Austauschpartner weitere Vereinbarung untereinander treffen (z.B. für v.Chr. ein Minus vor der Jahreszahl). Die Problematik des Jahres Null stellt für Computerverarbeitung ein weiteres Hürde dar. Die Eingabe ungenauer oder erschlossener Daten ist eigentlich nicht vorgesehen. Meistens wird es durch die Eingabe mehrerer Daten (z.B. weiteres Feld für Sortierdatum oder Angabe eines Zeitraums) und weiterer Felder, mit denen man die Art bzw. Qualität der Daten angibt (erschlossen, wahrscheinlich, etc.), umgangen. Dies ist aber individuell in Softwaren oder durch Datenmodelle festgelegt und kann dann nur schwer und nicht ohne weitere Absprache/Anpassungen in der digitalen Welt ausgetauscht werden. Auch besteht die Gefahr, dass das maschinenlesbare Datum, das nur aus Sortier- oder Verarbeitungszweck dem Digitalisat mitgegeben wurde, zum "eigentlichen" Datum der Quelle mutiert, da dieses Datum digital gelesen und verarbeitet werden kann.

Posted on

86 Probleme ohne Datenmanagementplan

< Back to problem stories

Ich koordiniere ein anderthalbjähriges audiovisuelles Zeitzeugenprojekt, angesiedelt an der Sächsischen Akademie der Wissenschaften, in Kooperation mit der Humboldt Universität zu Berlin. Das Projekt wird durch Bund und Länder gefördert: Thüringen, Sachsen und die Wismut GmbH, die ihre Gelder durch das BMWi erhält. Laut Antrag beinhaltet das Vorhaben, 50 Zeitzeugeninterviews zu führen, diese filmisch zu dokumentieren, anschließend zu transkribieren, zu verschlagworten und sowohl für eine (Langzeit)archivierung bereitzustellen als auch in eine noch aufzubauende Datenbank zu integrieren. Ein Zeitzeugenprojekt mit diesem Umfang benötigt ein Team, um es im Rahmen der vorgegebenen Zeit umzusetzen. Bisher besteht unsere Projektgruppe lediglich aus zwei Mitarbeitern. Diese „dünne Personaldecke“ ist dem Umstand geschuldet, dass wir als Projektgruppe seit sechs Monaten die Zusicherung der Förderung des BMWi zwar haben, aber bis heute kein Geld geflossen ist. Zudem erwartet das BMWi, die Zahl der zu führenden Interviews auf eine unbestimmte Zahl zu erhöhen. Es sind kaum 50 qualitative Interviews in einem Jahr schaffbar, geschweige denn die erweiterte. Der Aufbau der Datenbank, das Frontend, und die Langzeitarchivierung der großen Datenmenge sollten über die Sächsische Akademie (SAW) organisiert werden, um die Nachhaltigkeit des Projektes zu sichern. Erst nach Beginn des Projekts wurde deutlich, dass die SAW keine Kapazitäten dafür hat. Wir einigten uns auf einen Prototyp der Datenbank mit einem entsprechenden Frontend, das in Folgeprojekte münden und ausgearbeitet werden soll. Doch bleibt die Befürchtung, dass wir Daten produzieren, die in Vergessenheit geraten. Bei einem Projekt, in das mehrere erfahrene Institutionen involviert sind, hätte ich mehr Kommunikation und Unterstützung, zum Beispiel im Vorfeld für das Erstellen eines Datenmanagementplanes erwartet, das uns sicher vor einigen Problemen bewahrt hätte. Beispielsweise hätten wir mit einem DMP die juristische Komplexität, sowie die logistische und finanzielle Herausforderung einer Langzeitarchivierung erkennen und klären können. Wir stehen nun vor der Aufgabe, uns zusätzlich in neue Themenfelder einzuarbeiten, obwohl unsere finanziellen und personellen Kapazitäten dafür nicht vorhanden sind.

Posted on

85 Integration und Veröffentlichung von örtlichen Forschungen zur Familiengeschichte auf regionaler Ebene

< Back to problem stories

Im Rahmen der Familienforschung werden seit mehr als 80 Jahren u.a. von der Upstalsboom – Gesellschaft für historische Personenforschung und Bevölkerungsgeschichte in Ostfriesland e. V. (UG) Ortssippenbücher und Ortsfamilienbücher erstellt. Sie enthalten die Daten der Familienstammbäume der jeweiligen Kirchengemeinden einzelner Orte oder Familien. Diese werden mit Hilfe von Kirchenbüchern, standesamtlichen Unterlagen oder ähnlichen Primärquellen erstellt. Zurzeit sind von der UG 106 Ortssippenbücher, vier Familienbücher sowie dreiundzwanzig Bücher zur Familienkunde erstellt worden. Pro Jahr kommen drei bis fünf neue hinzu. Auch andere genealogische Vereinigungen erstellen Ortssippenbücher und Ortsfamilienbücher. Seit mehreren Jahren werden auch viele Informationssammlungen im Internet von vielen Autoren bereitgestellt. Diese stehen jede für sich und die Validität ist meist nicht zu beurteilen. Daher bleibt die klassische Suche in Archiven nach Primärdokumenten. Um eine Abstimmung von Personendaten zu erreichen, sollten die Forschungsdaten, versehen mit Referenzen auf Primärdokumente, untereinander vernetzt im Internet zu Verfügung werden. Beispiel hierfür wäre „WieWasWie-Everyone has a history“ (https://www.wiewaswie.nl). Hierzu wäre eine koordinierende und administrierende Person als Ansprechpartner sehr wichtig, ergänzt um FAQs im Internet. Den Autoren sollten Werkzeuge zur Unterstützung der Integration bereitgestellt werden. Diese Integration bedarf einer ständigen Überwachung sowie einer Dokumentation, die z. B. tote Punkte der jeweiligen Person, unscharfe Dokumentationen sowie Randunterschärfe der Datenwolke festhält. Weiter wäre es sinnvoll, Unterstützung bereit zu stellen, um vorhandene Primärdokumente, wie z.B. Archivmaterialien, Ortssippenbücher und Ortsfamilienbücher, zu digitalisieren und mit den anderen Daten validiert zu integrieren.

Posted on