OCR/HTR Workshop for Under-resourced and Under-represented Languages
Wann: Freitag, 3. Oktober & Samstag, 4. Oktober 2025
Wo: Central European University, Quellenstraße 51, 1100 Wien
Anmeldung: Die Veranstaltung vor Ort ist bereits ausgebucht! Ein Zoom-Link für eine virtuelle Teilnahme kann bei Alíz Horváth via E-Mail angefragt werden.
Organisation: Alíz Horváth (Central European University), Grigor Boykov und Yavuz Köse (University of Vienna), Patrick McAllister (Österreichische Akademie der Wissenschaften)
Studentische Hilfskraft: Saranya Chandran (Central European University)
Dieser Workshop bringt Nachwuchswissenschaftler*innen und erfahrenere Forschende sowie technische Spezialist*innen zusammen, die mit OCR- (Optical Character Recognition) und HTR-Tools (Handwritten Text Recognition) für unterrepräsentierte Sprachen und Schriften gearbeitet oder solche entwickelt haben (d.h. die meisten Sprachen jenseits der vielfältigen Formen des Englischen). Ziel ist es, zentrale Herausforderungen, potenzielle Lösungsansätze und Empfehlungen im Zusammenhang mit der Digitalisierung textueller Materialien in unterrepräsentierten und wenig erschlossenen Sprachen und Schriften zu diskutieren, um der breiteren wissenschaftlichen Gemeinschaft greifbare Ergebnisse zu ermöglichen.
Jüngste Fortschritte in der OCR- (Optical Character Recognition) und HTR- (Handwritten Text Recognition) Technologie haben die Digitalisierung großer Mengen textueller Daten als Grundlage für Textanalysen möglich gemacht. Dennoch bleiben die Leistungen dieser Technologien oft hinter den Erwartungen zurück und stellen Forschende vor besondere Herausforderungen, wenn sie auf unterrepräsentierte oder ressourcenschwache Sprachen und Schriften angewendet werden – obwohl leistungsfähige OCR-/HTR-Tools entscheidend dafür sind, die Verfügbarkeit textueller Korpora zu erhöhen. Texterkennung bildet nicht nur die Grundlage für weiterführende digitale Textanalysen, sondern stärkt auch die Sichtbarkeit und Repräsentation wenig erschlossener Sprachen und Schriften. Damit wird ein linguistisch vielfältigeres und inklusiveres digitales Umfeld für die Geisteswissenschaften geschaffen.Im Workshop kommen Forschende mit vielfältigen sprachlichen Hintergründen sowie technische Expert*innen aus etablierten Texterkennungsprojekten wie Transkribus und eScriptorium zusammen, die OCR-/HTR-Tools für mehrsprachige Zwecke entwickelt haben. Dies bietet eine seltene Gelegenheit für Wissenschaftler*innen, die mit unterschiedlichen Sprachen arbeiten, miteinander in Austausch zu treten, voneinander zu lernen und Inspiration sowie mögliche Parallelen in ihren Erfahrungen zu entdecken.
Der Workshop konzentriert sich vor allem auf Sprachen mit nicht-lateinischen Schriften, da für diese in der Regel spezifische Richtlinien fehlen. Ein erarbeiteter, einschlägiger Workflow könnte hier ein äußerst nützliches Werkzeug zur Bereicherung und Diversifizierung der einschlägigen Forschungsinfrastrukturen sein. Zu den behandelten Sprachen und Schriften gehören: Kanbun (Literarisches Chinesisch), klassisches Koreanisch, Chinesisch, Tibetisch, Garshuni Malayalam, Hebräisch, Osmanisches Türkisch, Sanskrit und Newar, Altgriechisch sowie Devanagari. Der Workshop wird praxis- und prozessorientierte Präsentationen mit anschließenden Diskussionen und einem kollaborativen „Writing Sprint“ kombinieren. Die gewonnenen Erkenntnisse sollen für Forschende, DH-Praktiker*innen sowie für weltweite Initiativen zur Sprachbewahrung von Nutzen sein. Durch die Einbindung technischer Vertreter*innen von Texterkennungsprojekten und Infrastrukturanbietern in die Diskussionen mit aktiven Forschenden möchte der Workshop gemeinsame Problemstellungen sichtbar machen, Kooperationen fördern und die Erzielung greifbarer Ergebnisse beschleunigen.
Dieser internationale Workshop zielte nicht nur auf eine Zusammenarbeit zwischen der Central European University , der Universität Wien , der Österreichischen Akademie der Wissenschaften und weiteren Organisationen ab, sondern auch auf eine Zusammenarbeit zwischen dem FWF-Exzellenzcluster EurAsian Transformations und CLARIAH-AT, die den Workshop finanziell unterstützt haben. Gleichzeitig wird auch die Reichweite des Workshops auf Asien und die USA erweitert.