Zum Hauptinhalt springen

Developing HuBERT: a Natural Language Processing algorithm for extending the Seshat Global History Databank

Hosting-Organisationen
Complexity Science Hub Vienna
Verantwortliche Personen
Maria del Rio-Chanona
Beginn
Ende
Tags
digital humanism (844), algorithms (397), digital infrastructure (314), artificial intelligence (847) und CLARIAH-AT (366)

Dieses Projekt befasst sich mit den Herausforderungen, die mit der Erweiterung und der verstärkten Nutzung historischer Datensätze verbunden sind, indem ein Algorithmus für die Verarbeitung natürlicher Sprache (NLP) entwickelt wird, der dazu beitragen kann, die aktuellen Datenbanken zu erweitern und die Übersetzung der Daten in andere Projekte hinweg zu verbessern. Das Projekt umfasst zunächst die Neuorganisation des Seshat -Literaturrepositoriums, das über 8.000 akademische Artikel und Bücher zu verschiedenen Kulturen und Zivilisationen enthält. Durch diese Umstrukturierung wird das Repositorium für Forscher einfach und automatisch zugänglich gemacht, wodurch die Nutzbarkeit der darin enthaltenen Daten erhöht wird. Zweitens wird im Rahmen des Projekts ein Algorithmus namens HuBERT entwickelt, der das Screening von Dokumenten und die Datenerfassung aus archäologischen und historischen Materialien und bestehenden Datenbanken teilweise automatisiert. Dies trägt dazu bei, die Herausforderungen der langsamen Datenerfassung und der fehleranfälligen manuellen Eingabe zu überwinden, wodurch die Daten projektübergreifend besser übertragbar werden und die Forscher ein breiteres Spektrum von Forschungsfragen beantworten können. Zusätzlich zu diesen Beiträgen umfasst das Projekt Aktualisierungen der Projektwebsite, Anleitungen und andere Ressourcen, um die Daten und den Algorithmus für ein breites Spektrum von Forschern aus verschiedenen Disziplinen zugänglich zu machen.

Projekt

Ein breites Spektrum historischer und archäologischer Arbeiten hat die Dynamik vergangener komplexer Gesellschaften aus der ganzen Welt dokumentiert. Jüngste Projekte haben sich darauf konzentriert, diese Informationen für verschiedene Gesellschaften im Laufe der Zeit neu zusammenzustellen (z. B. die Datenbanken Seshat und D-place), was die Forschung in verschiedenen Disziplinen der Geistes- und Sozialwissenschaften ermöglicht. Die Verbesserung der Nutzbarkeit dieser Datenbanken und die Erweiterung der darin enthaltenen Informationen würde die Beantwortung vieler weiterer Forschungsfragen ermöglichen.

Die größte Herausforderung bei der Ausweitung und verstärkten Nutzung historischer Datensätze besteht darin, dass die Datenerfassung langsam ist und dass die projektübergreifende Übersetzung von Informationen mühsam und fehleranfällig ist. Die Durchsicht der vorhandenen Literatur, das gründliche Lesen ausgewählter Artikel und die manuelle Erfassung von Variablen oder die erneute Eingabe der Informationen in ein anderes System erfordern viele Arbeitsstunden. Ziel dieses Projekts ist die Entwicklung eines Algorithmus für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), der dazu beitragen kann, aktuelle Datenbanken zu erweitern und die Übersetzbarkeit von Daten zwischen Projekten zu verbessern. Insbesondere werden wir auf dem kürzlich entwickelten BERT-Sprachmodell aufbauen, um das Screening von Dokumenten und die Datenerfassung aus archäologischen und historischen Materialien und bestehenden Datenbanken teilweise zu automatisieren.

Dieses Projekt ist in drei Teile gegliedert:

  1. Organisieren und Verfeinern der Beschriftung der Sammlung von Forschungsartikeln.
    Das Seshat-Team hat mehr als 8000 akademische Artikel und Bücher über verschiedene Kulturen und Zivilisationen neu zusammengestellt. Allerdings gibt es derzeit kein strukturiertes Repositorium, das einen einfachen oder automatischen Zugriff ermöglicht. Hier werden wir das Seshat-Literatur-Repositorium aufbauen, indem wir das aktuelle Repositorium aktualisieren und organisieren, so dass der Zugang automatisiert werden kann. Außerdem verfeinern wir die Verweise, so dass der Link zu dem/den jeweiligen Abschnitt(en) führt, aus dem/denen die Informationen abgeleitet wurden. Dieses detaillierte Referenzierungssystem ermöglicht es anderen Forschern, leichter auf die Seshat-Daten zuzugreifen, und ist nützlich für die Feinabstimmung von NLP-Algorithmen.
  2. Entwicklung eines natursprachlichen (NLP) Verfahrens zur Unterstützung der Datenextraktion. Jüngste Entwicklungen in NLP haben es Forschern ermöglicht, Sprachmodelle mit dem gesamten englischen Wikipedia-Textkorpus zu trainieren. Hier wird HuBERT entwickelt, ein BERT-Modell, das mit dem Text von sozial- und geisteswissenschaftlichen Forschungsartikeln aus dem Seshat-Literaturrepositorium feinabgestimmt wurde. Insbesondere wollen wir erreichen, dass HuBERT in der Lage ist, Forschungsartikel zu durchsuchen und eine Vorauswahl derjenigen zu treffen, die Informationen über eine bestimmte Variable enthalten könnten, um dann Forschern die Möglichkeit zu geben, Seshat nach Variablen abzufragen, die dort noch nicht definiert sind; d.h. HuBERT wird die Vorauswahl der Artikel treffen und Daten identifizieren, die für die Wiederverwendung von Forschenden der Zukunft geeignet sind.
  3. Pflege und Erweiterung der Dokumentation und Anleitungen.
    Die Seshat-Datenbank und die Website werden weiterhin aktualisiert und dokumentiert. Datenvisualisierungen und Dokumentationen sowie Tutorials für das Seshat-Literatur-Repositorium und HuBERT werden hinzugefügt.