Zum Hauptinhalt springen

Sharing the CROWN - Einrichtung eines Workflows von Sammlungsdaten zu verknüpften Forschungsdaten

Hosting-Organisationen
KHM-Museumsverband und Institut für Digitale Geisteswissenschaften - Universität Graz
Verantwortliche Personen
Martina Griesser und Christopher Pollin
Beginn
Ende

Kontext

Die Reichskrone des Heiligen Römischen Reiches ist eines der bedeutendsten Symbole der europäischen Geschichte. Sie gehört heute zu den Sammlungen des Kunsthistorischen Museums in Wien (KHM). Im Rahmen des vom KHM initiierten CROWN-Projekts wird eine umfassende Analyse der Krone durchgeführt. Dabei werden alle Bestandteile wie Edelsteine, Perlen, Platten etc. naturwissenschaftlich, historisch und kunsthistorisch untersucht. Das Projekt, das derzeit bis 2024 läuft, ist somit ein interdisziplinäres Unterfangen. Die Forschungsdaten, die sich aus der Anwendung hochentwickelter Analysetechniken zur Untersuchung der Herstellungstechniken und der verwendeten Materialien ergeben, werden mit The Museum System (TMS) erfasst. TMS ist eine weit verbreitete Softwarelösung, die für Museen entwickelt wurde. Es bietet eine relationale Datenbank, die für die Inventarisierung, Dokumentation und Verwaltung von Sammlungen verwendet werden kann.

Das Projekt CROWN sieht sich mit einer tiefgreifenden und komplexen Analyse eines einzelnen Objekts konfrontiert. Es muss dem wissenschaftlichen Auftrag eines weltweit führenden Museums gerecht werden und auf dem bereits etablierten TMS zur Datenverwaltung aufbauen. Daher ist es notwendig, neu entwickelte Workflows im CROWN-Projekt mit Hilfe des TMS zu implementieren. Die Datenverarbeitung ist ein Leuchtturmprojekt innerhalb des KHM Museumsverbundes. Es sind nicht mehr „normale“ Sammlungsdaten, die erfasst und verwaltet werden müssen, sondern hochspezifische Forschungsdaten, die einer speziellen Modellierung und Darstellung bedürfen. Da am KHM keine spezifische Expertise vorhanden ist, wird das vorgeschlagene Projekt in Kooperation mit dem Institut für Digitale Geisteswissenschaften (ehemals Zentrum für Informationsmodellierung, ZIM) der Universität Graz durchgeführt.

Um auch für zukünftige Forschung nutzbar zu sein, soll im Rahmen des vorgeschlagenen Projektes keine fertige Software entwickelt werden, sondern ein Workflow einer Best-Practice-Lösung beschrieben werden, um hochkomplexe, formalisierte und verknüpfte Forschungsdaten im Museumskontext nach den FAIR-Kriterien zu erzeugen. Aus diesem Grund sind die verwendeten Werkzeuge, TMS oder GAMS ( Geisteswissenschaftliches Asset Management System ), austauschbar und die entwickelten Workflows auf andere bestehende Systeme übertragbar.

Hauptziel

Das Ziel des vorgeschlagenen Projekts ist die Entwicklung und Implementierung eines Best-Practice-Workflows für die Modellierung, Transformation und Veröffentlichung von Daten aus Werkzeugen wie TMS in FAIR -Forschungsdaten. Ein solcher Workflow umfasst nicht nur „normale“ Forschungsdaten, sondern geht weit darüber hinaus. Dies ist auf die sehr spezifischen Forschungsbereiche im Museumskontext zurückzuführen, für die es keine ausreichenden Modelle für die Erfassung und Standardisierung gibt.

Im Fall von CROWN kann die relevante Forschungsfrage nach der Herkunft und Datierung der Krone nur auf der Grundlage einer Vielzahl von interdisziplinären Untersuchungen und Erkenntnissen beantwortet werden. Diese wiederum, d.h. die Kombination von naturwissenschaftlichen Messungen mit historischen Belegen, gehen über die übliche Datenstruktur zur Beschreibung von Objekten in Sammlungen hinaus. Um sowohl das Modell als auch die Entitäten des Datensatzes formal zu repräsentieren, wird ein Semantic-Web-Ansatz gewählt. Die resultierenden RDF-Daten basieren auf einer domänenspezifischen Ontologie, die von CIDOC-CRM und der Basic Formal Ontology (BFO) abgeleitet ist, und verknüpfen ihre Entitäten mit kontrollierten Vokabularen und Wikidata . Schließlich wird für die beschriebene Domäne ein webbasierter Proof-of-Concept-Prototyp einer Benutzerschnittstelle entwickelt, die an die Bedürfnisse der verschiedenen beteiligten Disziplinen angepasst ist und die Aggregation, Visualisierung, Exploration und Analyse der verarbeiteten Daten ermöglicht.

keywords: Museen, semantic web, linked open data, Ontologie, interdisziplinäre Forschung, Forschungsdaten, Workflows


Outcomes

Das Projekt konzentrierte sich auf die Entwicklung eines Workflows zur semantischen Anreicherung und Normalisierung von Forschungsdaten aus dem Museumssystem (TMS) am Beispiel des CROWN Projekts. Der Workflow umfasst die Datenbereinigung, die Domänenmodellierung, die Generierung von RDF-Daten aus einem TMS-Export sowie die Erstellung eines Prototyps in GAMS.

Eine besondere Herausforderung des Forschungsprojektes bestand darin, dass 2470 Objekte (Stand März 2024; weitere Objekte folgen), 669 spezifische und weitere ca. 40 vordefinierte Datenfelder aus TMS in RDF überführt werden müssen. Diese Datenfelder beinhalten hochspezialisierte Informationen wie z.B. die Beschreibung von Bohrlöchern auf Edelsteinen (der Reichskrone) sowie Form, Oberfläche, Farbe von Edelsteinen und durchgeführte Analyseverfahren wie z.B. Ramanspektroskopie. Da es sich um ein laufendes Projekt handelt, bei dem verschiedene Abteilungen zusammenarbeiten und im Laufe der Zeit neue Datenfelder benötigt werden, ist ein erweiterbarer Workflow erforderlich. Im Folgenden werden die wichtigsten Bereiche beschrieben.

  • Dateneingabe: Im TMS-System durch interdisziplinäre Teams von Fachwissenschaftler:innen, Datenbereinigung und Datennormalisierung.
  • Datentransformation: Transformation von TMS-Exportdaten in RDF.
  • Datenmodellierung: Entwicklung eines Datenmodells bzw. einer Ontologie.
  • Datenvisualisierung: Erstellung eines Prototyps in GAMS.

Dateneingabe

Die bisherige Datenerhebung wurde erfolgreich bereinigt und normalisiert. Um eine weitere normalisierte Dateneingabe zu gewährleisten, wurden eine Handreichung sowie im Rahmen der Förderzeit Schulungen zur Dateneingabe durchgeführt.

Datentransformation

Die Dokumentation und Veröffentlichung der Best Practices und Workflows erfolgt in einem GitHub-Repositorium . Das Kernstück bilden mehrere Python-Skripte, welche den CSV-Export aus TMS in RDF umwandeln. Das Mapping wird durch eine detaillierte Auflistung und Definition der UserFields in einem Google Spreadsheet realisiert, was kollaborative Anpassungen der Datenfelder erlaubt. Durch Modifikationen können ähnliche Workflows für andere Datensätze, wie beispielsweise Gemäldedaten aus TMS, erstellt werden, um daraus semantische Forschungsdaten zu generieren.

Implementierte Python-Skripte:

  • excel-to-rdf.py: Transformiert Excel-Daten nach RDF und führt eine semantische Anreicherung durch (Abgleich ausgewählter Werte; bedingt durch einheitliche Beschreibung in Datenfeldern).
  • index-to-rdf.py: Erstellung von Indexdateien für Organisationen und Personen, die Verknüpfungen und Querverweise innerhalb des Datensatzes erleichtern. Kann zur Erstellung weiterer projektspezifischer Indizes verwendet werden.
  • thesaurus-to-rdf.py: Erstellung von SKOS-basierten RDF-Strukturen für die im Projekt verwendeten Terminologien und Thesauri.

Datenmodellierung

Die projektspezifische Ontologie crown-ontology.ttl soll Daten aus Museumssammlungen strukturiert beschreiben. Durch die Integration mit CIDOC CRM wird die Interoperabilität verbessert. Die Ontologie unterstützt detaillierte Eigenschaften von Komponenten der Reichskrone sowie von Zusatzmaterialien, deren Herkunft und Zustand und ist offen für Aktualisierungen und Erweiterungen. Durch den definierten Workflow ist es möglich, eine gemeinsame Dokumentation sowohl für das Mapping als auch für die Generierung der Ontologie zu verwenden.

Implementierte Python-Skripte:

  • datafields-to-ontology.py: Verwendet lokale JSON-Dateien (Top-Level Class + CIDOC Mapping) und die in Google Spreadsheet definierten Datenfeldinformationen, um die Ontologie zu generieren.

Datenvisualisierung

Die Daten wurden erfolgreich in die Staging-Umgebung von GAMS integriert und ein Web Prototyp für den Zugriff auf die Daten implementiert.

Darüber hinaus wurde im Rahmen des Best-Practice ein niederschwelliger Zugang zu den Daten und deren Abfrage mittels GraphDB demonstriert, um zu zeigen, dass RDF-Daten auch in anderen Umgebungen genutzt werden können.