Quantitative Textanalyse

41 Erfassung kultureller Artefakte des Globalen Südens

< Back to problem stories

Ich befasse mich mit der Geistesgeschichte des Nahen Ostens im langen 19. Jahrhundert. Dafür möchte ich den sprachlichen Wandel durch distant reading großer Korpora untersuchen. Weltweit ist eine große Anzahl von Bilddigitalisaten schriftlicher Quellen verfügbar. Allerdings ist die automatische Texterkennung auch bei sehr teuren kommerziellen Plattformen so schlecht, dass diese nicht für meine Zwecke benutzt werden können. Es gibt offene, auf maschinellem Lernen basierende und sprachagnostische Werkzeuge, wie z.B. Kraken und Tesseract, jedoch verfüge ich weder über den technischen Sachverstand noch die notwendige Rechenkapazität, um Modelle zu trainieren und dann auf potentiell hunderttausende Seiten Faksimiles anzuwenden.

Posted on