LadderWeb: A pragmatically annotated web-based corpus query interface for requests and cancellations in Italian L1 and L2

Die korpusbasierte Forschung im Bereich der Pragmatik ist durch den Mangel an geeigneten Korpora eingeschränkt. Dies gilt insbesondere für andere Sprachen als Englisch und für frei verfügbare Daten. Die Erstellung von pragmatisch annotierten Korpora könnte jedoch die Erforschung der Interaktion verschiedener Sprachebenen erheblich erleichtern und ihre Verwendung in eher angewandten Bereichen wie Sprachunterricht, Lehrbuchproduktion oder Ausbildung von Sprachfachleuten ermöglichen.

Die pragmatische Annotation birgt viele Herausforderungen, wie z.B. die Kodierung der Bedeutung von Äußerungen, die vom außersprachlichen Kontext abhängen und von impliziter Sprache dominiert werden. Ein weiterer Engpass sind die Annotationskriterien, die mehrdeutig sein können, insbesondere wenn soziopragmatische Aspekte in einem ökologischen Umfeld berücksichtigt werden. Das ideale Szenario ist, über robuste pragmatische Annotationswerkzeuge zu verfügen.

Es wurden neue Strategien entwickelt, um diese Hindernisse mit den Korpora Ladder und DisDir zu überwinden. Die Daten sind auf experimentelle Umgebungen beschränkt, in denen extratextuelle Variablen durch standardisierte Diskursvervollständigungsaufgaben (DCT) kontrolliert werden. Dank der Auswahl spezifischer Sprechakte ermöglicht die verwendete Taxonomie die Kodierung von Äußerungen, die die Erkennung impliziter Bedeutung umgehen. Die Annotation wird automatisch durch eine maschinelle Lernanwendung angereichert, die die Grundlage für eine halbautomatische Annotation bilden wird.

Das Endprodukt wird eine Online-Plattform sein, die es Linguisten ermöglicht, die oben genannten Korpora nach Sprechakten von Anfragen und Absagen i in verschiedenen Sprachen und Varietäten zu durchsuchen.

keywords: TEI, foreign language education, corpus pragmatics, corpus query processor, IMS Open Corpus Workbench

Outcomes

Die Datensätze wurden bereinigt und die vorhandene Annotation überprüft, so dass der Datensatz für das KI-Training und die automatische Annotation vorbereitet werden konnte. Außerdem wurden die verbalen Daten transkribiert und mit Metadaten verknüpft.
Es wurde ein Workflow für das Training von Sprachmodellen und die anschließende automatische Annotation von Beispielsätzen entwickelt. Derzeit testen wir verschiedene Tagging-Algorithmen und überprüfen die Qualität ihrer Ergebnisse.
Bei der Verwendung von Hunderten von Datensätzen ist das Ergebnis noch nicht zufriedenstellend, so dass eine manuelle Nachbearbeitung erforderlich ist. Wir sind zuversichtlich, dass sich die Qualität der automatischen Annotation mit Hilfe der halbautomatischen Annotation und der Ergänzung des Trainingskorpus durch weitere Datensätze stetig verbessern wird.

Diese Daten werden Studenten, Lehrern und Forschern über Ladder Web, eine Webanwendung, öffentlich zugänglich gemacht. Andere Datensätze, die aufgrund einer geringen Anzahl spezifischer Sprachdateien nicht in das Training einbezogen wurden, werden derzeit bereinigt und ohne Annotation zusammen mit den annotierten Daten archiviert.

Die Archivierung von linguistischen Datensätzen auf der ÖAW-ARCHE-Plattform erfolgt in den Formaten TEI/XML und JSON, die eine langfristige Aufbewahrung und Zugänglichkeit gewährleisten. Diese Formate entsprechen den komplexen Anforderungen der linguistischen Forschung und ermöglichen die detaillierte Darstellung von Texten und Annotationen. Der Zugang zu den Korpora LADDER (Learners Digital Communication a Dataset for Pragmatic competence in Italian L2) und DisDir (Disdette e atti di rifiuto) wird durch spezielle Links erleichtert und bietet Forschern reichhaltige Ressourcen für die Analyse von Sprache und Diskurs;

LADDER: https://hdl.handle.net/21.11115/0000-0011-83CC-3
DisDir: https://hdl.handle.net/21.11115/0000-0011-83CD-2

Die LadderWeb App, die von der Universität Innsbruck entwickelt und gehostet wird, stellt einen bedeutenden Fortschritt im Bereich der linguistischen Forschungswerkzeuge dar. Sie automatisiert den Annotationsprozess und steigert die Effizienz und Genauigkeit. Verfügbar unter: https://ifd-ladderweb.uibk.ac.at/

Eine manuelle Nachbearbeitung durch Studierende in Seminaren ist geplant, insbesondere angesichts der positiven Rückmeldungen zu den Verbreitungsformaten.

Die Funktionalität der App umfasst die Verwaltung von Texten und deren Metadaten (z.B. IDs, Inhalt, Sprache, Aufgaben und Sprecherinformationen wie Alter, Geschlecht und sprachlicher Hintergrund) und Annotationen (z.B. Modifikatoren und Subakte). Der Annotationsprozess umfasst mehrere Schritte:

Vorverarbeitung:
Dazu gehören Unicode-Normalisierung, Satzsegmentierung mit Apache NLP, Tokenisierung mit RegExp und Kleinschreibung.
Tagging:
Verwendet einen vortrainierten Apache NLP POS-Tagger für das grundlegende Tagging, ergänzt durch binäre Tagger für jede Sprache und jedes Token. Das Training wird ausschließlich mit Daten aus der Datenbank durchgeführt, eine Methode, die sich als effektiv erwiesen hat.

Dieser detaillierte Ansatz zur Archivierung und Analyse linguistischer Daten unterstreicht die Bedeutung digitaler Werkzeuge für die Weiterentwicklung der Sprachforschung. LadderWeb mit seiner innovativen Anwendung von NLP-Techniken und nutzerorientiertem Design ist ein Beispiel für das Potenzial der Technologie zur Verfeinerung und Erweiterung der Grenzen der linguistischen Analyse;

Dissemination

Die folgenden 4 Zusammenfassungen über das Projekt sind bei OASIS eingereicht worden:

i) Wallnöfer, V., Brocca, N. (2023). Summary: Linguistic politeness across Austria and Italy: Backing out of an invitation with an instant message. OASIS Summary of Brocca, Nuzzo, & Cortés Velásquez et al. ] (2023) in Journal of Pragmatics https ://oasis-database.org

ii) Wallnöfer, V., Brocca, N. (2024). Summary: Exploring request strategies in Austrian Italian learners: Pragmatic transfer insights. OASIS Summary of [ Brocca N., Nuzzo E.] (2024) in [Journal of Pragmatics] https ://oasis-database.org

iii) Wallnöfer,V, Brocca, N. (2021). Summary: LADDER: un corpus di scritture digitali per l’insegnamento della pragmatica in L2. Un esempio di analisi in disdette in WhatsApp. OASIS Summary of Brocca, N. (2021) LADDER: un corpus di scritture digitali per l’insegnamento della pragmatica in L2. Un esempio di analisi in disdette in WhatsApp. in ItalianoLinguaDue https ://oasis-database.org

iv) Victoria Wallnöfer and together with Nicola Broca I have written  the summary of the article for the OASIS platform. [Brocca Nicola, Masia Viviana, Garassino Davide] (2024). [ Empowering critical digital literacy in EFL: Teachers’ evaluation of didactic materials involving the recognition of presupposed information].

Die folgenden Konferenzen/Posterpräsentationen wurden abgehalten:

i) Brocca, Nicola; Wang-Kathrein, Joseph: LadderWeb: An AI-based assistant for the pragmatic annotation of cancellations and requests. Forschungszentrum Digital Humanities, Innsbruck, 21.03.2024. ( Weblink )

ii) Brocca, Nicola; Hirzinger-Unterrainer, Eva Maria: LadderWeb: chances for practitioners, learners and researchers. https://www.uibk.ac.at/digital-humanities/veranstaltungen.html

iii) Brocca, Nicola; Hirzinger-Unterrainer, Eva Maria: LadderWeb: chances for practitioners, learners and researchers. CLARIN Café on Computer-Assisted Pragmatic Annotation of Native and Learner Corpora, 12.03.2024 (Online). ( Weblink )

iv) Brocca, Nicola; Cortés Velásquez, Diego; Nuzzo, Elena; Wang-Kathrein, Joseph: LadderWeb: A WebApp for Intercultural Pragmatic Explorations. Vortragsreihe „Didaktik am Abend“, Innsbruck, 18.03.2024. ( Weblink )

v) Brocca, Nicola; Cortés Velásquez, Diego; Nuzzo, Elena; Wang-Kathrein, Joseph: LadderWeb: an AI-based web app for the pragmatic annotation of cancellations and requests. XI International Symposium on Intercultural, Cognitive and Social Pragmatics (EPICS XI, 22-24 May 2024). Weblink .

Links

LADDER. (Vorgängerprojekt) Beschreibung: https://ladder.hypotheses.org/1