
Machine Learning Suite for IIIF Resources
- Hosting-Organisationen
- Österreichische Nationalbibliothek - Abt. für Forschung u. Entwicklung
- Verantwortliche Personen
- Christoph Steindl
- Beginn
- Ende
- Tags
- IIIF (500), Jupyter notebooks (1071), machine learning (644), object detection (1072), colorisation (1073) und tutorials (981)
GLAM-Institutionen wie die Österreichische Nationalbibliothek (ÖNB) sind für die Archivierung einer großen Anzahl von Objekten und Daten verantwortlich. Viele Informationen über diese Objekte sind in digitaler Form verfügbar, und in vielen Fällen ist das Objekt selbst bereits digitalisiert. Um diese Datensammlungen zu verwalten, zu erforschen und zu analysieren, wurden Ansätze des maschinellen Lernens (ML) entwickelt, um neue Informationen zu extrahieren und so neue Sichtweisen auf bestimmte Sammlungen zu schaffen.
Viele GLAM-Institutionen nutzen das International Image Interoperability Framework (IIIF) , um den Zugang zu Metadaten und digitalem Material zu ermöglichen. IIIF ermöglicht eine einfache Integration digitaler Ressourcen in Websites und die gemeinsame Nutzung durch verschiedene Institutionen in Sammlungen und Arbeitsabläufen. Daher sind IIIF-fähige Daten ideal für Anwendungsfälle mit ML. Die folgende Grafik veranschaulicht die Phasen eines herkömmlichen ML-Workflows (siehe den Original-Workflow für maschinelles Lernen hier ) und die potenziellen Anwendungsbereiche des IIIF-Frameworks (d. h. verschiedene IIIF-APIs) darin.

Viele ML-Pipelines, die öffentlich zugänglich sind (z. B. auf GitHub), verwenden Jupyter-Notebooks, um ihre Modelle zu entwickeln, zu testen und anzuwenden. Jupyter-Notebooks sind auch in der DH sehr verbreitet, insbesondere um die Erstellung, Bearbeitung oder Analyse von Datensätzen zu dokumentieren. Darüber hinaus werden Jupyter-Notebooks zur Erfüllung von Lehraspekten eingesetzt. So hat beispielsweise das NewsEye-Projekt, das sich auf europäische Zeitungen konzentriert, eine Notebook-Sammlung mit einer eingehenden Analyse ihres Korpus (z. B. Textklassifizierung oder Textähnlichkeit) veröffentlicht, die für den Einsatz in Universitätskursen bestimmt ist.
Das Hauptziel dieses Projekts ist es, die verschiedenen Technologien - IIIF, ML, Jupyter Notebooks - zu kombinieren, um Forschende bei der Generierung neuen Wissens aus digitalisierten Kulturgütern zu unterstützen. Die Zusammenführung dieser Technologien hat viele Vorteile: (1) Es bietet eine einfache, standardisierte und wiederverwendbare Möglichkeit, IIIF-Materialien in ML-Anwendungen im Allgemeinen zu integrieren und (2) es veröffentlicht diese ML-Pipelines als Jupyter-Notebooks. Sie werden (3) gut dokumentiert sein und können daher (4) als Rohmodell für neue Projekte verwendet werden und (5) leicht von anderen Institutionen, die IIIF für ihre Daten unterstützen, eingesetzt werden. Zusätzlich zum rohen Quellcode zielt das Projekt auch darauf ab, interaktive Widget-Komponenten in den Notebooks zu verwenden, um die Software-Suite für Benutzer mit weniger Vorkenntnissen in den Computerwissenschaften einfach nutzbar zu machen.
Anwendungen des maschinellen Lernens sind und werden ein wesentlicher Bestandteil der Datenanalyse im wissenschaftlichen Kontext sein. Unabhängig davon, ob kleine Datensammlungen oder Big Data verarbeitet werden, ist es notwendig, die Nutzer im Umgang mit maschinellen Lernmodulen zu schulen. Auf diese Weise ist es möglich, komplexe und multidimensionale Probleme zu verstehen und so neue Einblicke in Sammlungen zu gewinnen. Das Projekt ermutigt dazu, diese innovativen Methoden auf bereits digitalisierte Daten anzuwenden.