Skip to main content

Retrospective of the CLARIAH-AT Summer School 2024

„ain roter samater sesl mit vergŭltm beschlecht“. Bearbeitung historischer Quellen mit Transkribus

Kindly note that the following contribution is available in German language only.

Von dieser besonderen Ausstattung eines Lesebereiches in den Privaträumen des Salzburger Fürsterzbischofs berichtet ein Inventar der Festung Hohensalzburg aus dem Jahr 1540. Historische Dokumente wie diese sind zentrale Quellen für die Geschichtswissenschaft, und die Nutzung moderner Hilfsmittel erleichtert deren Bearbeitung erheblich. Ein hilfreiches Tool bietet die KI-gestützte Plattform Transkribus . Die Teilnehmer:innen der CLARIAH-AT-Summerschool konnten anhand der Inventare der Festung Hohensalzburg grundlegende Techniken digitaler Quellenkritik und -analyse erproben und den digitalen Workflow durchlaufen. 

Nach dem Upload der Dokumente erfolgt eine Layoutanalyse, die mittels eines neuronalen ARU-Netzes automatisiert eine Maske über das Dokument legt, die Textblöcke und Zeilen erkennt. Diese Erkennung funktioniert weitestgehend problemlos, lediglich bei Korrekturen, Tilgungen oder Marginalien im Originaltext muss nachträglich händisch nachgeholfen werden. In diesem Arbeitsschritt wird jeder Zeile des Originaldokuments im Editor von Transkribus eine leere Zeile zugeordnet, die im zweiten Schritt befüllt werden kann. 

Auch die Transkription des Textes kann automatisiert durch bestehende Datenmodelle erfolgen. Bei Drucken oder Handschriften, für die ein breites Korpus an Vergleichsmaterial besteht, funktioniert diese automatische Auslese auch problemlos (mit einer Fehlerquote [CER] von 5‒10% ist ein Text Recognition Model effizient). Im Falle der Inventare von Hohensalzburg konnte auf kein bestehendes Modell zurückgegriffen werden und die Transkription erfolgte auf bewährtem Weg durch die Benutzer:innen. Bei größeren Textmengen kann auch ein eigenes Modell trainiert und auf die Spezifika der eigenen Texte angepasst werden. Dafür ist eine repräsentative Datenmenge von ca. 5 000‒15 000 Zeichen vonnöten, um eine sinnvolle CER zu erreichen. Aber auch ohne diese KI-Unterstützung erleichtert Transkribus durch die Text-Bild-Verknüpfungen der im ersten Arbeitsschritt erstellten Zeilen das Transkribieren. 

Nach der Transkription des Texts können mithilfe von structural und textual tags Annotationen durchgeführt werden, die je nach Vorhaben variieren können. Transkribus stellt dabei bereits eine gewisse Vorauswahl zur Verfügung, die jedoch nach eigenen Bedürfnissen ergänzt werden kann. Das Festhalten solcher Metadaten erleichtert die Durchsuchbarkeit (v. a. bei großen Textmengen) nach spezifischen Aspekten. Diese werden beim Export des finalisierten Dokumentes mit übertragen, sodass eine Weiterarbeit mit dem transkribierten und annotierten Dokument möglich ist. 

Die Arbeit mit Transkribus bietet neben der KI-Unterstützung bei der Bearbeitung großer Textmengen und der klaren Übersicht mit graphischen Markierungen und Text-Bild-Verknüpfungen ferner den Vorteil einer Cloud-basierten Speicherung, die Teamarbeit und remote work ermöglicht, ohne auf lokale Speicher angewiesen zu sein. Weiters sind die Quellen unabhängig von ihrem Entstehungszeitraum sowie ihrer Schrift und Sprache bearbeitbar, sodass die Plattform Unterstützung für ein breites Spektrum an kultur- und geisteswissenschaftlichem Publikum bietet. 


Literatur:

Antenhofer, C. & Denicolò, B. (2024). Von der Datenerfassung zur Annotation (mit Transkribus). Quellen erfassen, analysieren, transkribieren und annotieren. In: Antenhofer, C., Kühberger, C. & Strohmeyer, A. (Hrsg.). Digital Humanities in den Geschichtswissenschaften. Wien. 126–143. https://www.utb.de/doi/abs/10.36198/9783838561165-126-143

Mühlberger, G.  et al. (2019). Transforming Scholarship in the Archives through Handwritten Text Recognition. Transkribus as a Case Study. Journal of Documentation, 75(5), 954‒976. https://doi.org/10.1108/JD-07-2018-0114


Dieser Beitrag entstand im Rahmen einer Lehrveranstaltung an der PLUS Salzburg und wurde ursprünglich auf der DH Salzburg Website veröffentlicht.


Bildnachweis:  

Ausgangsbilder für die Grafik: ​ 

Detail aus der Genesis, Jakob bei Salem, 1390-1400, fol.34r. Foto: (c) Die Wenzelsbibel ‒ Digitale Edition und Analyse. Ein Kooperationsprojekt des Fachbereichs Germanistik der Universität Salzburg und der Österreichischen Nationalbibliothek, Version 2.2.0, 2024-01-25. URL: https://edition.onb.ac.at/wenzelsbibel  

Inventar Hohensalzburg 1540, Archiv der Erzdiözese Salzburg, KAS I/5 fol.15v (mit freundlicher Genehmigung des Archivs der Erzdiözese Salzburg) 

DH Salzburg Website