Modular Transfer Reinforcement Learning in Industrial Robotics
Die Dissertation von Dr.-Ing. Christian Bitter befasst sich mit dem Einsatz von selbstlernenden Agenten für das Erlernen von Robotersteuerungen. In diesem Kontext wurde die Modularisierung von Entscheidungsprozessen untersucht, um eine dateneffiziente und interpretierbare Erstellung von Bausteinen zur Wahrnehmung, Planung, und Ausführung zu erreichen. Darüber hinaus wurden die Rekombination und anschließender Transfer dieser Bausteine für neue Szenarien gezeigt.
Wir haben Christian zu seiner Dissertation befragt:
In welchem Kontext ist deine Dissertation entstanden? Welche Projekte oder anderen Faktoren haben deine Dissertation besonders beeinflusst?
Mit dem Thema Reinforcement Learning für Robotersteuerungen bin ich im Rahmen meiner Masterarbeit in Kontakt gekommen, in der ich einen selbstlernenden Agenten für einen Industrieroboter zum Erlernen des Spiels „heißer Draht“ eingesetzt habe. Am Ende der Arbeit war ich einerseits überzeugt und begeistert von dem Potential selbstlernender Agenten, andererseits war das Training der Agenten sehr zeit- und nervenintensiv. Durch das direkte Training auf dem realen Roboter waren die Experimente langsam und der Versuchsaufbau konnte kaputtgehen. Darüber hinaus war der Lernfortschritt eines Agenten sehr undurchsichtig, und die Frage, ob ein Trainingslauf noch Erfolgschancen hat oder lieber abgebrochen werden sollte, war schwer bis unmöglich zu beantworten.
Basierend auf diesen Erfahrungen habe ich mich in meiner anschließenden Promotionszeit die Frage gestellt, wie die Anwendung von Reinforcement Learning effizienter und transparenter gestalten lässt. Antworten habe ich im Transfer Learning gefunden, angefangen mit der Verwendung einer Simulation zum Vortraining, sowie dem Transfer von Agenten zwischen Aufgabenvariationen.
Darüber hinaus durfte ich im Projekt AGR33D Reinforcement Learning in einem industriellen Anwendungsfall für die automatisierte Flugzeugschalenmontage untersuchen. Für die Beantwortung der zentralen Frage des Projektes wie sich Agenten für präzise Fügeaufgaben trainieren lassen haben wir in unserem Roboterlabor am Lehrstuhl einen entsprechenden Demonstrator aufgebaut. Während das Szenario durch die Verwendung realer Bauteile und mit Hilfe von 3D Drucken hinreichend realistisch abgebildet werden konnte gab es einen großen Unterschied zum realen Prozess: der Roboter. Die Frage wie sich Agenten zwischen unterschiedlichen Robotermodellen übertragen lassen hat mich auch nach Projektabschluss nicht losgelassen und wurde ein wichtiger Teil meiner Dissertation.
Welchen Beitrag leistet deine Arbeit zum Forschungsfeld?
In meiner Arbeit habe ich erfolgreich die Modularisierung von Reinforcement Learning Agenten in Kontextwahrnehmung, Aufgabenplanung, und Robotersteuerung gezeigt und Beiträge zum Transfer der Module aus der Simulation, zwischen Aufgaben und über Robotermodelle hinweg geliefert. Konkret habe ich asynchrones Reinforcement Learning mit generativen Verfahren verknüpft, um Latenzen in der Roboteransteuerung zu kompensieren. Anschließend habe ich KI-Modelle zur Komprimierung eingesetzt, um prozessrelevante Informationen aus Bilddaten zu extrahieren, und konnte hier den Transfer aus der Simulation zeigen. Daraufhin habe ich mittels hierarchischem Reinforcement Learning die aufgabenspezifische Strategie von der aufgabenübergreifenden Taktik trennen, wobei letzteres für neue Aufgaben wiederverwendet werden konnte. Schlussendlich habe ich ein Verfahren entwickelt, um Bewegungen zwischen unterschiedlichen Robotermodellen zu vergleichen und zu übertragen.
Modularisierung zur Komplexitätsreduktion und Transparenz ist in den Ingenieurswissenschaften und der Informatik ein wohl etabliertes Konzept. Die Hauptthese meiner Arbeit, dass sich die Modularisierung eines KI-Agenten lohnt, ist daher nicht radikal neu. Dennoch liefert meine Arbeit für die Anwendbarkeit von Reinforcement Learning im industriellen Umfeld einen wichtigen Gegenimpuls zur durchaus spannenden und relevanten Forschung an immer mächtigeren KI-Agenten, indem sie zeigt, dass nicht allein Größe und Komplexität über den Erfolg entscheiden, sondern insbesondere die strukturierte Zerlegung von Fähigkeiten in übertragbare, interpretierbare und wartbare Module. Diese Sichtweise eröffnet neue Wege, um Lernprozesse gezielter zu steuern, Wissen zwischen Aufgaben zu transferieren und letztlich praxisnähere, zuverlässigere und besser nachvollziehbare KI-Systeme in industriellen Anwendungen zu realisieren.
Wie geht es nun für dich und das Thema weiter?
Nach einer sehr schönen Zeit in der anwendungsnahen Forschung bin ich inzwischen in der forschungsnahen Anwendung gelandet. Bei dem Startup enabl in Karlsruhe beschäftige ich mich aktuell mit der Automatisierung ferngesteuerter Gabelstapler. Auch hier geht es um die Modularisierung von Entscheidungspipelines im Allgemeinen, sowie den Einsatz selbstlernender KI-Agenten auf Basis von menschlichen Demonstrationen.