Vom Digitalisat zu strukturierten Daten: Historische Quellen mit LLMs erschließen

Deutsch, Workshop, Virtuell

NFDI4Memory Veranstaltungsreihe "Von Büchern zu Bytes" mit Sarah Kiener (Zentralbibliothek Zürich)

Bibliotheken und Archive verfügen heute über riesige Bestände digitalisierter Dokumente. Doch oft bleiben die darin enthaltenen Informationen in Bilddateien “eingeschlossen” und sind nur schwer zugänglich. Gründe dafür sind unter anderem alte Schriften, mangelhafte Druckqualität und historische Schreibweisen, die die automatische Texterkennung (OCR) erschweren. Mit ihrer visuellen Komponente und ihrer "Intelligenz" haben multimodale große Sprachmodelle (LLMs) das Potenzial diese Lücke zu füllen. Sie können nicht nur Texte aus Scans extrahieren und präzise transkribieren, sondern auch Inhalte interpretieren, klassifizieren und in strukturierte Formate wie JSON oder CSV überführen.

Am Beispiel der Zürcher Nachtzedel – Gästelisten der Zürcher Hotels aus den Jahren 1780 bis 1792 – wird aufgezeigt, wie sich LLMs für die Aufbereitung historischer Quellen in maschinenlesbare Datensätze einsetzen lassen.

Der Workshop führt in die Grundlagen des Promptings ein und vermittelt bewährte Strategien, wie LLMs effektiv zur Gewinnung strukturierter Daten aus Digitalisaten genutzt werden können. Die Teilnehmenden entwickeln eigene Prompts zur Extraktion von Informationen aus den Nachtzedeln und erhalten hilfreiche Tipps für eine erfolgreiche Promptgestaltung.

 

Einwahldaten:

Teilnahmelink: https://uni-trier.zoom-x.de/j/69148560192?pwd=ZUVjclY2V1JibXhFYVk1VGgrdE9qdz09

Presentation room

Meeting-ID: 691 4856 0192

Kenncode: M0gcpwTh

Weitere Informationen zur Veranstaltungsreihe finden Sie hier.