Machine Learning for Digital Scholarly Editions
Im Zuge dessen, dass in den vergangenen Jahren digitale Methoden immer mehr an Bedeutung gewinnen und neue Horizonte für die Forschung eröffnen, findet die CLARIAH-AT Summer School 2025 von 8. bis 12. September 2025 in Graz statt:
Die Summer School 2025 wird gemeinsam von Institut für digitale Geisteswissenschaften (Universität Graz), dem Know Center , der TU Graz und CLARIAH-AT organisiert.
Maschinelles Lernen prägt zunehmend die Forschung in den Digital Humanities und bietet leistungsstarke Werkzeuge zur Analyse und Anreicherung textueller Daten. Unter Verwendung der Python-Bibliothek BERTopic werden die Teilnehmenden verschiedene Schritte des Topic Modelings kennenlernen. Aufbauend auf der modularen Architektur von BERTopic werden die Studierenden in mehrere grundlegende Methoden des maschinellen Lernens eingeführt, darunter Embedding, Dimensionsreduktion und Clustering. In praxisorientierten Sitzungen lernen sie, diese Techniken auf historische Texte anzuwenden. Ziel ist es, Nicht-Expert:innen einen praxisnahen Überblick über die Nutzung der BERTopic-Bibliothek sowie über die wesentlichen theoretischen Grundlagen ihrer Module zu vermitteln.
Die Summer School richtet sich sowohl an Studierende als auch an Forschende, die sich für die Schnittstelle von digitaler wissenschaftlicher Edition und maschinellem Lernen interessieren. Nach Abschluss der Summer School werden die Teilnehmenden ein grundlegendes Verständnis von Algorithmen des maschinellen Lernens besitzen und deren potenzielle Einsatzmöglichkeiten sowie Stärken und Grenzen einschätzen können. Zudem werden sie in der Lage sein, BERTopic eigenständig auf ihre eigenen Daten anzuwenden.
Keynotes
Keynote 1: Dienstag, 9. September 2025, 18:00 (CEST), Elisabethstraße 50b (SR 19.02)
Clemens Neudecker:
Context matters. Opportunities and challenges when working with artificial intelligence and cultural heritage data
Die Fortschritte im Bereich des maschinellen Lernens bzw. der Künstlichen Intelligenz (ML/AI) eröffnen vielfältige Chancen für Bibliotheken und die digitale Wissenschaft. In Projekten wie Mensch.Maschine.Kultur entwickelt die Staatsbibliothek zu Berlin – Preußischer Kulturbesitz (SBB) ML-Technologien für ein breites Spektrum an Anwendungen: von der Text- und Layout-Erkennung über die Bildanalyse und Informationsextraktion bis hin zur maschinengestützten Sacherschließung sowie – nicht zuletzt – zur Bereitstellung von Sammlungen als Daten und deren digitaler Kuratierung.
Gleichzeitig müssen bei der Nutzung von ML-Technologien im Zusammenspiel mit historischen Quellen und Kulturerbe-Materialien stets deren historische und kulturelle Kontexte berücksichtigt werden. Von Bibliotheken digitalisierte Sammlungen sind in Bezug auf abgedeckte Zeiträume, Perspektiven, Orte oder Regionen sowie die jeweiligen kulturellen Kontexte äußerst heterogen. Historische Dokumente enthalten häufig Verzerrungen, die nicht mehr den heutigen ethischen Werten entsprechen. Während Historiker:innen darin geschult sind, Quellen kritisch einzuordnen und Quellenkritik als methodisches Werkzeug anzuwenden, werden KI-Systeme der Industrie überwiegend mit modernen Texten aus dem Internet trainiert und sind hierzu nicht in der Lage.
Am Beispiel der Erfahrungen der SBB mit maschinellem Lernen und Künstlicher Intelligenz möchte dieser Vortrag Einblicke in praktische Anwendungen geben und gleichzeitig für einen bewussten und verantwortungsvollen Umgang mit ML und Kulturerbe-Daten sensibilisieren.
Keynote 2: Freitag, 12. September 2025, 12:30 (CEST) (online)
Ulrike Henny-Krahmer:
Machine learning and scholarly editing - a contradiction or an exciting partnership?
Traditionell zielen wissenschaftliche Editionen darauf ab, auf der Grundlage historischer Dokumente einen verlässlichen Text zu erstellen, der als Basis für weiterführende Forschung in den jeweiligen Fachgebieten dienen kann. Abhängig von der Art der Quelle erfordert dies methodisch einen präzisen Textvergleich sowie eine detaillierte Untersuchung der Beschaffenheit der zugrunde liegenden Dokumente und ihrer textuellen Inhalte.
Wie passt dies zu Methoden des maschinellen Lernens, die Muster auf der Grundlage großer Datenmengen erkennen, um Modelle zu erzeugen, mit denen sich probabilistische Vorhersagen für weitere Daten treffen lassen? Sind diese Ansätze überhaupt miteinander vereinbar, und wie lassen sich methodische Widersprüche auflösen oder Verbindungen zwischen den Methoden herstellen?
Der Vortrag wird diese Fragen am konkreten Beispiel von Briefen aus der Edition der Werke des deutschen Schriftstellers Uwe Johnson (1934–1984) diskutieren, für die Topic-Modelle erstellt wurden. Dabei geht es auch darum, in welchem Maße Geisteswissenschaftler:innen, Digital Humanists und Informatiker:innen in das jeweils andere Fachgebiet eintauchen können, um die jeweiligen Methoden zu verstehen. Dieses Verständnis eröffnet nicht nur spannende Möglichkeiten, sondern stellt auch eine zentrale Voraussetzung für den erfolgreichen Einsatz von Methoden des maschinellen Lernens in den Geisteswissenschaften dar.
Schedule
| Zeit | Montag (8.9.) | Dienstag (9.9.) | Mittwoch (10.9.) | Donnerstag (11.9.) | Freitag (12.9.) |
|---|---|---|---|---|---|
| 8:30 - 9:00 | Registration | ||||
| 9:00 - 10:30 | Welcome and setup (Georg Vogeler, Walter Scholger) (Roman Bleier, Martina Scholger) | Embeddings (Michael Jantscher) | Clustering (Max Toller) | Tokenization and weighting (Klara Venglarova) | Experiments |
| 10:30 - 11:00 | Coffee break | Coffee break | Coffee break | Coffee break | Coffee break |
| 11:00 - 12:30 | BERTopic: overview and example (Selina Galka) | Embeddings (Michael Jantscher) | Clustering (Max Toller) | Topic finetuning (Lucija Brozić) | Machine learning and DSE wrap up (Sarah Lang) |
| 12:30 - 13:30 | Lunch | Lunch | Poster Session | Lunch | Lunch |
| 13:30 - 15:00 | Introduction to Python | Dimensionality reduction (Bernhard Geiger) | Exkursion: | Built your BERTopic pipeline (Roman Bleier, Martina Scholger) | Keynote Ulrike Henny-Krahmer (online) |
| 15:00 - 15:30 | Coffee break | Coffee break | “Buschenschank“ | Coffee break | Goodbye coffee |
| 15:30 - 17:00 | Prepare a dataset (Roman Bleier, Martina Scholger) | Dimensionality reduction (Bernhard Geiger) | Experiments (Michael Otto) | ||
| 18:00 | Keynote | zurück in Graz um ca. 21:30 |
Weitere Informationen, Anmeldung, Details zu den Tutoren und Keynote-Sprecher*innen finden sich auf der Website der Summer School:
Summer School: ML for DSErelated Links: