Quantitative Textanalyse | 4Memory/Nationale Forschungsdaten Infrastruktur (NFDI)

Quantitative Textanalyse

41 Erfassung kultureller Artefakte des Globalen Südens

Ich befasse mich mit der Geistesgeschichte des Nahen Ostens im langen 19. Jahrhundert. Dafür möchte ich den sprachlichen Wandel durch distant reading großer Korpora untersuchen. Weltweit ist eine große Anzahl von Bilddigitalisaten schriftlicher Quellen verfügbar. Allerdings ist die automatische Texterkennung auch bei sehr teuren kommerziellen Plattformen so schlecht, dass diese nicht für meine Zwecke benutzt werden können. Es gibt offene, auf maschinellem Lernen basierende und sprachagnostische Werkzeuge, wie z.B. Kraken und Tesseract, jedoch verfüge ich weder über den technischen Sachverstand noch die notwendige Rechenkapazität, um Modelle zu trainieren und dann auf potentiell hunderttausende Seiten Faksimiles anzuwenden.

Task Area

Task Area 3
Task Area 4

Perspective

datacollection
dataprocessing
datapublication

Tags

Volltexterkennung (OCR)
nicht lateinische Schriften
Quantitative Textanalyse