Zum Hauptinhalt springen

MHDBDB goes AI. Datenaufbereitung für das OER-LLM ParzivAI

Hosting-Organisationen
Universität Salzburg (MHDBD)
Verantwortliche Personen
Katharina Zeppezauer-Wachauer, Julia Hintersteiner und Alan Lena van Beek
Beginn
Ende

Die Mittelhochdeutsche Begriffsdatenbank ( MHDBDB ) der Paris Lodron Universität Salzburg realisiert ein zukunftsweisendes Digital Humanities Projekt, das Künstliche Intelligenz für die Übersetzung und Analyse historischer Texte nutzbar macht. Im Rahmen des Heidelberger Hackathons KI und Mittelalter entstand die Vision eines Large Language Models (LLM), das mittelhochdeutsche Texte automatisiert in modernes Deutsch überträgt. Diese Mittelhochdeutsch KI-Übersetzung soll Bildungseinrichtungen, Forschenden und Interessierten einen einfachen Zugang zu mittelalterlichen Quellen ermöglichen. Das LLM trägt den Namen ParzivAI und wird als Open Educational Resource (OER) veröffentlicht – im Einklang mit den FAIR-Prinzipien für offenen, nachhaltigen Wissenstransfer.

Über das Projekt

ParzivAI ist darauf ausgelegt, in der Germanistik, Linguistik, Computerlinguistik, den Digital Humanities und in den Mittelalterstudien eingesetzt zu werden. Entwickelt wurde der Prototyp von Dr. Florian Nieser ( Heidelberg Center for Digital Humanities, HCDH ) und Thomas Renkert (Heidelberg School of Education). Erste Tests mit Texten wie „Armer Heinrich“, „Erec“ und „Parzival“ zeigen das Potenzial der KI-gestützten Mittelhochdeutsch-Übersetzung für Forschung und Lehre.
Die MHDBDB stellte hierfür umfangreiche historische Text- und Metadatensätze bereit und übernahm gemeinsam mit Dr. Alan van Beek und Peter Färberböck das Data Preprocessing. Für den vollständigen Einsatz ist eine erweiterte Datenaufbereitung notwendig: Reparatur fehlerhafter Exporte, Konvertierung in offene Formate (JSON, XML), Bereitstellung von TEI- und RDF-Daten sowie die Entwicklung einer offenen API für die Abfrage von Lemmata – eine wichtige Grundlage für Retrieval Augmented Generation (RAG) in KI-Anwendungen. Darüber hinaus wird eine Schnittstelle für Sekundärliteratur via Zotero geplant, um zusätzliche synthetische Trainingsdaten für die OER KI-Forschung zu generieren.
Für die Fortführung der Kooperation mit dem HCDH und den Ausbau der technischen Infrastruktur sind Investitionen in externe IT-Entwicklung und projektbezogene Reisekosten vorgesehen.