Institute for Technologies and Management of Digital Transformation

Semantic Modeling

Ausgangslage

Die Forschung zu heterogenen Daten und deren Zusammenführung ist ein kontinuierlicher Prozess, der im Laufe der Zeit an Bedeutung gewonnen hat. Die Notwendigkeit, verschiedene Datenquellen miteinander zu verknüpfen und zu integrieren, besteht seit langem. Die zunehmende Verfügbarkeit und Nutzung unterschiedlicher Datenquellen hat jedoch in den letzten Jahrzehnten zu einem verstärkten Fokus auf die Erforschung und Entwicklung von Methoden zur Verarbeitung heterogener Daten geführt. In den 1990er Jahren begannen Forscher, sich verstärkt mit der Integration heterogener Datenquellen zu beschäftigen. Dabei wurden verschiedene Ansätze und Techniken entwickelt, um den Herausforderungen bei der Verarbeitung, Integration und Analyse heterogener Daten zu begegnen. Mit den Fortschritten in der Datenbanktechnologie, der Entwicklung von Standards für den Datenaustausch und der zunehmenden Bedeutung von Big Data und Datenintegration hat sich die Forschung zu heterogenen Datenquellen weiterentwickelt. Heute ist dies ein aktives und dynamisches Forschungsgebiet. Ein Forschungsansatz ist das semantische Datenmanagement.

Semantische Modellierung

Im Bereich des semantischen Datenmanagements hat sich die Verwendung gemeinsamer Konzeptualisierungen wie Wissensgraphen oder Ontologien als besonders effektiv erwiesen, um heterogene Datenquellen effizient zu verwalten und zu konsolidieren. Beispielsweise werden auf Basis einer bestehenden Ontologie alle Datenattribute der vorhandenen Datensätze auf Klassen dieser Ontologie abgebildet. Dieser Vorgang wird als semantisches Labeling bezeichnet und ermöglicht bereits die Interpretation der Datenattribute im Rahmen der Ontologie. Um eine feingranulare Beschreibung der Daten zu erhalten, ist die Erstellung eines semantischen Modells der etablierte Ansatz. 

Die manuelle Erstellung semantischer Modelle erfordert jedoch Fachwissen und ist zeitaufwändig. Heute gibt es bereits verschiedene automatisierte und halbautomatisierte Ansätze zur Unterstützung der Erstellung eines semantischen Modells. Dabei werden verschiedene Informationen aus und über die zu annotierenden Datensätze (Label, Daten, Metadaten) verwendet, um semantische Labels und vollständige semantische Modelle zu erstellen. Automatisierte Ansätze sind jedoch aus verschiedenen Gründen in ihrer Anwendbarkeit in realen Szenarien eingeschränkt und erfordern daher eine manuelle Nachbearbeitung. Dieser Nachbearbeitungsprozess wird als Semantic Refinement bezeichnet. Dies geschieht in der Regel durch Domänenexperten, d.h. Anwender, die die Daten sehr gut kennen, aber in der Regel keine oder nur geringe Kenntnisse über semantische Technologien haben.

An diesen beiden Herausforderungen setzt unsere Forschung an. Unsere Forschung konzentriert sich sowohl auf die verbesserte automatische Generierung von semantischen Labels und Modellen mittels maschineller Lernverfahren als auch auf die effiziente und semi-automatisierte Nachbearbeitung (z.B. durch Empfehlungssysteme) von automatisch generierten semantischen Modellen. Dabei verfolgen wir das übergeordnete Ziel, semantische Modellierung praxistauglich und skalierbar zu machen.

Das PLASMA Framework

Ein zentrales Ergebnis unserer Forschung ist das PLASMA Framework. PLASMA ist ein Werkzeug zur Erstellung und Bearbeitung semantischer Modelle, das sich vor allem an fachfremde Nutzer richtet. Die erste Version dieser semantischen Modellierungsplattform wurde 2021 von uns vorgestellt und kontinuierlich weiterentwickelt. PLASMA bietet eine einfach zu bedienende grafische Benutzeroberfläche, um die Einstiegshürde für Nutzer ohne Erfahrung mit semantischer Modellierung zu senken. PLASMA wickelt alle Interaktionen im Zusammenhang mit dem Modellierungsprozess ab, verwaltet eigene Ontologien und einen Wissensgraphen und ist in der Lage, Eingabedaten zu analysieren, um deren Schema zu identifizieren. Darüber hinaus ermöglichen die von PLASMA bereitgestellten Schnittstellen und Bibliotheken die direkte Integration in Datenräume. Durch die zugrundeliegende Microservice-Architektur können zudem verschiedene existierende Ansätze zur automatisierten semantischen Modellierung in den Prozess integriert werden. PLASMA ist Open Source und kann hier getestet werden.

Anwendungen

Unsere Forschung findet Anwendung in allen Kontexten, die sich mit semantischem Datenmanagement (Auffinden und Integrieren semantischer Daten) beschäftigen bzw. überall dort, wo Mappings zwischen Konzeptualisierungen und Daten benötigt werden. Dies sind heute insbesondere die Bereiche rund um Datenräume (Dataspaces), den Aufbau von Wissensgraphen sowie das Datenmanagement nach den FAIR-Prinzipien.

Publikationen zum Thema

2023
Paulus, A., Burgdorf, A., Pomp, A., & Meisen, T. (2023). "Collaborative Filtering Recommender System for Semantic Model Refinement" in 2023 IEEE 17th International Conference on Semantic Computing (ICSC) , IEEE 183—190.

ISBN: 978-1-6654-8263-9

Pomp, A., Jansen, M., Berg, H., & Meisen, T. (2023). "SPACE_DS: Towards a Circular Economy Data Space" in Companion Proceedings of the ACM Web Conference 2023 , Ding, Ying and Tang, Jie and Sequeda, Juan and Aroyo, Lora and Castillo, Carlos and Houben, Geert-Jan, Eds. New York, NY, USA : ACM 1500—1501.

ISBN: 9781450394192

Pomp, A., Jansen, M., Berg, H., & Meisen, T. (2023). "SPACE{\_}DS: Towards a Circular Economy Data Space" in Companion Proceedings of the ACM Web Conference 2023 , Ding, Ying and Tang, Jie and Sequeda, Juan and Aroyo, Lora and Castillo, Carlos and Houben, Geert-Jan, Eds. New York, NY, USA : ACM 1500--1501.

ISBN: 9781450394192

Paulus, A., Pomp, A., & Meisen, T. (2023). "The PLASMA Framework: Laying the Path to Domain-Specific Semantics in Dataspaces" in Companion Proceedings of the ACM Web Conference 2023 , Ding, Ying and Tang, Jie and Sequeda, Juan and Aroyo, Lora and Castillo, Carlos and Houben, Geert-Jan, Eds. New York, NY, USA : ACM 1474—1479.

ISBN: 9781450394192

Weitere Infos über #UniWuppertal: