Zum Hauptinhalt springen

Korpus österreichischer historischer Zeitungen mit Sentiment-Annotationen

Hosting-Organisationen
Universität Graz (Institut für Digitale Geisteswissenschaften)
Verantwortliche Personen
Lucija Krušić
Beginn
Ende

Das Projekt entwickelt den ersten sentiment-annotierten Korpus historischer österreichischer Zeitungen für den Zeitraum 1800 bis 1938. Ziel ist es, die Sentimentanalyse in den Digital Humanities und der historischen Sprachverarbeitung entscheidend voranzubringen.
Sentimentanalyse – die automatisierte Erkennung und Klassifikation von Emotionen, Haltungen und Meinungen in Texten – ist ein zentrales Verfahren im Text Mining und in der Computerlinguistik. Bislang gibt es keine spezifisch für das Österreichische Deutsch des 19. und frühen 20. Jahrhunderts annotierte Ressource. Das Projekt schließt diese Lücke und ermöglicht es, gesellschaftliche Narrative zu Migration, Minderheiten und politischen Diskursen in unterschiedlichen historischen Epochen und ideologischen Kontexten datenbasiert zu erforschen.

Projektinformationen

Unter Verwendung kuratierter Bestände aus ANNO (Österreichische Nationalbibliothek) und DIGITARIUM (Österreichische Akademie der Wissenschaften) werden zentrale Zeitungstitel wie Wienerisches Diarium, Neue Freie Presse und Arbeiter Zeitung manuell mit Sentiment-Annotationen versehen. Der Annotationsprozess wird von geschulten Annotator:innen nach etablierten Korpusannotations-Methoden durchgeführt und mit dem Tool Doccano umgesetzt. Die Qualitätssicherung erfolgt über Messungen der Inter-Annotator-Agreement-Werte.
Bisher wurden folgende Arbeitsschritte umgesetzt:

  • Verbesserung der OCR-Genauigkeit auf 86 % mithilfe von Machine-Learning-Verfahren.
  • Thematische Strukturierung mit BERTopic zu den Schwerpunkten Migration, Minderheiten, Arbeit, Bildung und Nationalismus.
  • Annotation von über 700 Instanzen zu verschiedenen Zeiträumen und Themenfeldern.

Die nächsten Projektschritte umfassen die Ausweitung der Sentimentannotation auf weitere Zeiträume (1800–1850, 1900–1938) und die Publikation des finalen Datensatzes als Open-Access-Ressource auf Zenodo gemäß den FAIR-Datenprinzipien. Zudem wird die Ressource in das GAMS-Repository integriert und über das CLARIN Virtual Language Observatory ( VLO ) international auffindbar gemacht – ein wichtiger Beitrag zur Forschungsinfrastruktur der Digital Humanities.