PocketViz
Fortschritte in der KI-gestützten Bildverarbeitung ermöglichen heute eine präzise und automatisierte Erkennung, Lokalisierung und Segmentierung von Objekten und damit Verfahren, die beispielsweise im autonomen Fahren eingesetzt werden. Dieses Potenzial lässt sich auch auf andere Anwendungsfelder übertragen, etwa auf die Erkennung von Fahrzeugsachschäden, dermatologischen Auffälligkeiten oder Struktur- und Bauschäden an Gebäuden und Denkmälern.
Moderne Smartphones bieten hierfür eine mögliche technische Grundlage. Neben klassischen Bewegungssensoren verfügen sie über hochauflösende Kameras und erste Modelle auch über Lidar-Sensoren. Durch die Kombination dieser Sensordaten eröffnen sich neue Möglichkeiten für die visuelle und räumliche Analyse.
An diesem Punkt setzt das Projekt an: Es untersucht, wie Aspekte der menschlichen Wahrnehmung, insbesondere das Zusammenspiel verschiedener Wahrnehmungssinne, also verschiedene Modalitäten, auf KI-gestützte Analysemethoden übertragen werden können. Durch die Fusion von Kamerabildern und Lidar-Punktwolken sollen neue Computer-Vision-Modelle entstehen, die eine zuverlässigere Erkennung komplexer Zustände und Schäden ermöglichen. Dieser multimodale Ansatz basiert auf erfolgreichen Verfahren aus dem autonomen Fahren und wird nun auf smartphonebasierte Anwendungen übertragen.
Gemeinsam mit drei Anwendungspartnern aus unterschiedlichen Bereichen wird die Methode in praxisnahen Szenarien erprobt, darunter die Erkennung von Lack- und Oberflächenschäden an Fahrzeugen, die Analyse auffälliger Hautmerkmale sowie die Detektion von strukturellen Schäden.