Textmining

68 Datenmigration

< Back to problem stories

Ich bin Wissenschaftler*in und möchte einen aus unterschiedlichen Quellen aggregierten Datenbestand für Fragestellungen nutzen, die ich z.B. mit Hilfe von Methoden aus dem Bereich des Textmining oder der Netzwerkanalyse beantworten könnte. Anschließend möchte ich die Ergebnisse so publizieren, dass sie von anderen Wissenschaftler*innen nachvollzogen und reproduziert werden können. Die Ausgangsdaten liegen in unterschiedlichen, fachspezifischen (teils auch älteren, heute nicht mehr gebräuchlichen) Datenformaten/Versionen vor (Plaintext, Word, Indesign, Tustep, verschiedene XML-Notationen, etc.). Mir stellen sich folgende Fragen: Wie lassen sich die Daten in ein für meine Fragestellung geeignetes Format transformieren? Gibt es einen (Web)Service für so etwas? Welches ist ein geeignetes Format für die Publikation der Ergebnisse? Wie kann ich sicherstellen, dass die Werkzeuge und Algorithmen, die ich für die Analyse benutzt habe, auch für weitere Generationen von Forschenden noch auffindbar sind und meine Ergebnisse reproduziert werden können?

Posted on

20 Inhaltsanalyse preußischer Regierungsberichte aus dem Rheinland

< Back to problem stories

In einer kleinen Forschergruppe wollen wir die Berichte der rheinischen Provinzialregierungen an den preußischen König in den ersten Jahrzehnten nach der Annektion untersuchen. Uns interessiert dabei, welche Themen die im Aufbau befindliche Verwaltung hatte, wie sie diese Themen an den König herantrug und ob es dabei unterschiede zu den alten preußischen Provinzialverwaltungen gab. Um die große Textmenge bearbeitbar zu machen und um möglichst unvoreingenommen an die Quellen heranzutreten wollen wir eine Inhaltsanalyse mit einem Topicmodell vornehmen. Das erste Problem, das sich dabei stellt ist natürlich die Digitalisierung großer handschriftlicher Textmengen. Dieses Problem lässt sich mit dem Programm Transkribus jedoch schon sehr gut lösen. Als weiteres Problem erweist sich die Frage, wie die Daten gespeichert werden sollen. Auf der einen Seite sollten für die Berechnung des Topicmodells einzelne Textabschnitte als mit Metadaten (Regierungsbezirk, Jahr, Monat) versehene Variablen vorliegen. Auf der anderen Seite sollten die Daten auch in Ihrer Dokumentenstruktur gespeichert und mit einer XML-TEI Auszeichnung versehen werden, um sie als Editon zu veröffentlichen. Hier braucht es eine flexible Datenbanklösung, die mehrere Zuordnungen erlaubt. Zuletzt stellt sich die Frage, mit welchem Programm das Textmining vorgenommen werden soll. Konventionelle Statistikprogramme wie STATA und R sind dazu in der Lage. Der Zugang zu diesen Programmen stellt aber sicherlich für Viele im Fach eine Hürde da. Hilfreich wäre es ein webbasiertes Tool zu haben, das intuitiv zu bedienen ist. Zwar existieren auch hier schon entsprechende Webseiten (bspw. Voyant-Tools, Lexos). Diese sind aber stärker auf die Literaturwissenschaft ausgerichtet und haben für die historische Arbeit einige Nachteile. So ist die Arbeit mit Metadaten (Zeitinformationen) schwierig, außerdem wird der Arbeitsstand auf Fremdservern gespeichert und eine Dokumentation der einzelnen Arbeitsschritte ist nicht vorgesehen. Eine speziell auf das historische Arbeiten zugeschnittene Lösung, die die hier skizzierten Nachteile umgeht wäre sicherlich hilfreich. Grade auch, um die Methoden des Textminings breit im Fach zu verankern.

Posted on