Überwindung der Kluft: Lösungen des Reinforcement Learning in der realen Welt

Über Carlo D’Eramo

Carlo D’Eramo begann seine akademische Laufbahn mit einem Master in Computer Engineering mit Spezialisierung auf Künstliche Intelligenz in Mailand. Er promovierte in Italien im Bereich Reinforcement Learning, einem Teilgebiet des maschinellen Lernens, das sich damit beschäftigt, wie Software-Agenten in einer Umgebung agieren sollten, um bestimmte Ziele zu erreichen.

Nach seiner Promotion verbrachte D’Eramo einige Zeit als Postdoc an der Technischen Universität Darmstadt, in der er später die hessische KI-Gruppe LiteRL leitete. Seit November 2022 ist er Professor für Reinforcement Learning und Computational Decision-Making an der Universität Würzburg und arbeitet weiterhin in Darmstadt, um seine Doktoranden zu betreuen.

Reinforcement Learning als Fokus

D’Eramos Forschung konzentriert sich auf Reinforcement Learning, eine Methode des maschinellen Lernens, bei der ein Agent durch Versuch und Irrtum und Belohnungen lernt, in einer bestimmten Umgebung bestimmte Aktionen auszuführen. Diese Methode hat ein breites Anwendungsspektrum, das von der Optimierung von Schachstrategien bis hin zu Investitionen am Aktienmarkt reicht.

Eine der größten Herausforderungen auf diesem Gebiet ist es, die Kluft zwischen Theorie und Praxis zu überbrücken, sagt D’Eramo. „Wir sind gut darin, ein einzelnes Problem zu lösen, aber wenn sich das Problem ändert oder die Daten verrauscht sind, funktionieren die Systeme nicht mehr“, sagt der Forscher. KI-Systeme müssen daher anpassungsfähiger und robuster werden, vor allem in Situationen, in denen sich die Umgebung oder die Aufgabe ändert.

Multitask Reinforcement Learning soll Systeme robust machen

Ein Schlüsselaspekt von D’Eramos Forschung ist daher das Multi-task Reinforcement Learning. Indem ein KI-Modell verschiedene Aufgaben lernt, verbessert es seine Fähigkeit, zu generalisieren und sich an unvorhergesehene Probleme anzupassen. Diese Anpassungsfähigkeit ist entscheidend für die Entwicklung einer künstlichen Intelligenz, die in der realen Welt bestehen kann, sagt der Wissenschaftler.

Die Arbeit mit Deep-Learning-Methoden ist jedoch eine große Herausforderung, vor allem im Reinforcement Learning, da diese Methoden oft mit vielen Parametern arbeiten und ausführliche Tests mit so vielen Variablen schnell mehrere Tage dauern können. D’Eramo sucht nach effizienteren Modellen, die weniger Ressourcen benötigen und schneller trainiert werden können – so können neue Methoden schneller getestet und weiterentwickelt werden.

Seine derzeitige Doppelrolle als Professor an der Universität Würzburg und als Leiter der LiteRL-Gruppe an der TU Darmstadt sieht er als interessante Möglichkeit, Forschungskooperationen zwischen den beiden Universitäten aufzubauen. hessian.AI sieht er dabei als gutes Vorbild: Das Zentrum sei offen für verschiedene Themen und ermögliche interessante und fruchtbare Kooperationen, etwa zwischen seinem Forschungsgebiet und dem lebenslangen Lernen.

„Wir sollten die Bedeutung der Theorie nicht vergessen“

Mit seiner Arbeit will D’Eramo KI-Systeme schaffen, die sich besser anpassen können und damit stärker verallgemeinern. Langfristig hofft er, mit seiner Forschung die Entwicklung einer allgemeinen künstlichen Intelligenz voranzutreiben.

Wenn er nicht gerade Modelle in Simulationen trainiert, kooperiert der Wissenschaftler auch mit Forschern aus der Robotik. Dort könnten seine Methoden beispielsweise helfen, Roboter zuverlässiger zu machen. Auch außerhalb der Robotik könnten bessere RL-Algorithmen den Menschen in vielen Bereichen helfen, zum Beispiel, indem sie bessere Empfehlungen für die Behandlung von Patienten auf der Grundlage ihrer Krankheitsgeschichte geben, die sich von Person zu Person unterscheidet.

Aber „wir dürfen die Bedeutung der Theorie nicht vergessen, wir müssen durch mathematische Theorie sicherstellen, dass das, was wir anwenden, sicher ist“, sagt mir D’Eramo zum Abschluss des Gesprächs. Die Forschung müsse immer ein Gleichgewicht zwischen der theoretischen Behandlung von Problemen und der Beibehaltung einer Anwendungsperspektive finden.