A Novel Approach to Semantic Mapping through a Documentation-Centric Methodology
Die Dissertation von Dr.-Ing. Andreas Burgdorf beschäftigt sich mit der automatisierten Zuordnung von semantischen Konzepten zu Datensätzen. Dabei untersucht er die Rolle von textuellen Datendokumentationen und welche Methoden geeignet sind um diese Dokumentationen für den Zuordnungsprozess bestmöglich einzusetzen. Hier sind insbesondere verschiedene Methoden des maschinellen Lernen sowie insbesondere Große Sprachmodelle zu nennen.
Wir haben Andreas zu seiner Dissertation befragt:
In welchem Kontext ist deine Dissertation entstanden? Welche Projekte oder anderen Faktoren haben deine Dissertation besonders beeinflusst?
Bevor ich an die Bergische Universität Wuppertal gekommen bin, hatte ich schon an der RWTH verschiedene vergleichsweise kleine Projekte in welchen ich mich mit Natürlicher Sprachverarbeitung und vor allem gerade aufstrebenden Transformer-basierten Sprachmodellen beschäftigt habe. In Wuppertal habe ich dann im Projekt Bergisch.smart_mobility mitgearbeitet bei dem es unter anderem um die Entwicklung eines Datenmarktplatzes zum Thema Mobilität im Bergischen Städtedreieck ging. Hier mussten viele Datensätze, die bereits in Open Data Portalen vorlagen händisch semantisch annotiert werden. Da hat sich die Frage gestellt, welche Methoden geeignet sein können, um diese Annotation so weit wie möglich zu automatisieren. Hierbei waren für mich auf Grund vergangener Projekte im Bereich der Sprachverarbeitung insbesondere die Dokumentationen von Interesse, da sie zusätzlich den Vorteil bieten, dass alle Menschen, unabhängig vom IT-fachlichen Hintergrund, in der Lage sind, diese Datensätze mit eigenen Worten zu beschreiben. So kam es dazu, dass ich diese Schnittstelle zwischen Semantischem Datenmanagement und Natürlicher Sprachverarbeitung für mich entdeckt habe.
Welchen Beitrag leistet deine Arbeit zum Forschungsfeld?
Die Dissertation leistet einen Beitrag zur Untersuchung der Frage, inwiefern textuelle Datendokumentationen als Informationsquelle zur automatisierten semantischen Annotation geeignet sind. Dabei war ein erster Meilenstein der Aufbau eines geeigneten Datenkorpus (VC-SLAM) welcher Rohdaten, textuelle Datendokumentationen sowie semantische Modelle enthält, da es einen vergleichbaren nutzbaren Korpus zu dem Zeitpunkt noch nicht gab. Auf Grundlage dieses Korpus habe ich verschiedene Methoden von Heuristiken bis zu Sprachmodellen untersucht und entwickelt um den automatischen semantischen Annotationsprozess zu optimieren. Das Ergebnis ist das Framework DocSemMap, welches andere automatisierte Verfahren, welche nicht auf Dokumentationen setzen, schlägt. Ein Fokus lag dann zuletzt auch auf großen Sprachmodellen (LLMs) für welche ich untersucht habe, wie sie den Prozess noch weiter verbessern können, sei es dadurch, sie für die Verbesserung von Dokumentationen zu nutzen, oder sie selbst für den Annotationsprozess als weitere Methode einzusetzen.
Wie geht es nun für dich und das Thema weiter?
Insbesondere große Sprachmodelle habe ich heute weiter in meinen Fokus gerückt. Ich freue mich sehr, dass ich die Möglichkeit habe, im Projekt KI4BUW eine Vielzahl von Mitarbeitenden und Studierenden unter anderem bei der Entwicklung von Chatbots und weiteren KI-basierten Assistenz-Systemen , sei es für Lehre, Forschung oder Verwaltung, zu unterstützen. Ich freue mich, dass die Nutzung von großen Sprachmodellen zur semantischen Annotation von Datensätzen und insbesondere zum Bau komplexerer semantischer Modelle am Lehrstuhl und in Forschungsprojekten in verschiedenen Anwendungsfeldern weiter an Relevanz gewinnt.