Zum Hauptinhalt springen

NERDPool: Datenpool für Named Entity Recognition

Hosting-Organisationen
ACDH-CH - Austrian Centre for Digital Humanities and Cultural Heritage, Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities (ZIM-ACDH) und Uni Innsbruck - Institut für Geschichtswissenschaft u. Europäische Ethnologie
Verantwortliche Personen
Peter Andorfer, Roman Bleier, Matthias Schlögl und Michael Span
Beginn
Ende

Named Entity Recognition (NER) ist die Fähigkeit automatisch Informationen über Named Entities wie Personen- und Ortsnamen aus unstrukturierten Daten zu erkennen und zu extrahieren. Im Forschungsbereich der Digital Humanities und der digitalen Edition gewinnt diese digitale Methode zunehmend an Aufmerksamkeit. Für historische Sprachstufen des Deutsch gibt es kaum Trainingsmaterial für NER-Modellen. NERDPool versucht, diese Lücke zu füllen, indem es eine Sammlung von Gold-Standard-Named-Entity-Annotation über eine spezielle Web-Anwendung/Web-Service (https://nerdpool-api.acdh-dev.oeaw.ac.at/) veröffentlicht.

Das Austrian Centre for Digital Humanities und Cultural Heritage (ACDH-CH) an der Österreichischen Akademie der Wissenschaften, das Zentrum für Informationsmodellierung (ZIM) der Universität Graz und die Universität Innsbruck (UIBK) bieten Online-Zugang zu Goldstandard-NER-Daten, die aus der folgenden historischen Textsammlung stammen:

  • Im Projekt Regensburger Reichstag, 1576 (ZIM) werden verschiedene Dokumente (wie Protokolle, Berichte, Korrespondenzen und Verhandlungsakten, etc.), die die Reichstagsversammlung von 1576 dokumentieren, ediert. Das Projekt stellt frühneuzeitliche Textdaten für das Trainieren von Modellen zur Identifizierung von Personen- und Ortsnamen zur Verfügung.
  • Das Projekt Lesen im Alpental ediert ländliche, administrative Dokumente, sogenannte „Verfachbücher“, aus der zweiten Hälfte des 18. Jahrhunderts.
  • Frühneuzeitliche Zeitungen; Das Wien[n]erische Diarium, 1700-1900 (ACDH-CH).
  • Edition der Ministerratsprotokolle Österreichs und der österreichisch-ungarischen Monarchie und der Sitzungsprotokolle der Österreichischen Akademie der Wissenschaften, 1850-1900 (ACDH-CH, IHB).
  • (private) Korrespondenzen; Schnitzler Briefwechsel, 1880-1940 (ACDH-CH).