Wie Künstliche Intelligenz Videos verstehen soll
Über Dr. Simone Schaub-Meyer
Dr. Simone Schaub-Meyer ist Expertin für Computer Vision und forscht an der Schnittstelle von Computer Vision, Computergrafik und maschinellem Lernen.
Schaub-Meyer promovierte 2018 an der ETH Zürich in Zusammenarbeit mit Disney Research Zürich. An der ETH Zürich forschte die Wissenschaftlerin anschließend als Postdoktorandin am Media Technology Lab zu Augmented Reality Technologien.
Dr. Simone Schaub-Meyer
2020 wechselte sie als Postdoktorandin an das Visual Inference Lab der TU Darmstadt. Seit 2021 leitet sie dort als Junior Research Group Leader die Gruppe „data-Efficient Video Analysis“ (EVA).
EVA wurde als DEPTH-Forschungsgruppe im Rahmen des vom Hessischen Ministerium für Wissenschaft und Kunst geförderten Clusterprojekts „Die Dritte Welle der Künstlichen Intelligenz – 3AI“ von hessian.AI gegründet.
KI-Videoanalyse soll daten- und recheneffizient sein
Dr. Simone Schaub-Meyer forscht an dateneffizienten, robusten und kontrollierbaren Methoden der Videoanalyse, also an Verfahren, die Daten aus Videos extrahieren und dann beispielsweise zur Videointerpolation nutzen können.
Effizient sollen ihre Verfahren in zwei Bereichen sein, erklärt Schaub-Meyer: Sie haben eine hohe Recheneffizienz – denn bei einer Auflösung von beispielsweise 4K müssen riesige Datenmengen verarbeitet werden – und sie verstehen Videoinhalte mit möglichst wenigen Kennzeichnungen.
Diese Annotationen werden in der Regel manuell von Menschen erstellt, um den Bildinhalt für Computer verständlich zu machen. Beispielsweise werden in einem Bild, das eine Katze auf einem Tisch zeigt, beide Objekte mit „Katze“ und „Tisch“ beschriftet. Diese Methode ermöglichte große Datensätze wie ImageNet und damit den Siegeszug des überwachten maschinellen Lernens in der Computer Vision.
Moderne KI-Methoden suchen eigenständig Muster in riesigen Datensätzen
Inzwischen haben sich jedoch selbstüberwachende Verfahren durchgesetzt, bei denen KI-Modelle mit Milliarden von Bildern ohne manuell erstellte Labels trainiert und dann mit spezialisierten Datensätzen mit Labels auf ihr jeweiliges Einsatzgebiet feinjustiert werden.
Schaub-Meyer erforscht, wie solche Algorithmen in der Videoanalyse eingesetzt werden und wie sie mit weniger Labels lernen können.
Ohne Labels werden andere Signale zum Lernen benötigt. Schaub-Meyer forscht daher an Methoden, mit denen sich zeitliche Zusammenhänge in Videos effizient und robust extrahieren, darstellen und für verschiedene Anwendungen nutzen lassen, etwa um Bewegungen in der Videoanalyse zu repräsentieren, neue Videobilder zu synthetisieren oder Objekte in Videos zu segmentieren und zu verfolgen.
Solche Repräsentationen will sie auch in den derzeit verbreiteten Diffusionsmodellen wie der stabilen Diffusion untersuchen. Solche Diffusionsmodelle haben viele Vorteile, aber auch Probleme, sagt Schaub-Meyer. Die Forschenden müssten nun herausfinden, was solche Modelle verstehen, welche Verzerrungen (Bias) es im Netzwerk gibt, welche Probleme sie lösen können und wo ihre Grenzen liegen.
KI muss besser interpretierbar werden
Ihre Forschungsgruppe EVA wurde von hessian.AI gegründet. Schaub-Meyer schätzt die interdisziplinäre Zusammenarbeit, die das Zentrum ermöglicht, den Austausch mit anderen Forschenden und die finanzielle Unterstützung.
Eine große Herausforderung sieht die Wissenschaftlerin darin, Modelle zu entwickeln, die „wirklich das Problem lösen und nicht etwas Unvorhersehbares tun“. Dazu müsse ein besseres Verständnis solcher großen KI-Modelle entwickelt, die Interpretierbarkeit verbessert und die Modelle robuster gemacht werden. So könne auch das Vertrauen in die Modelle gestärkt werden – eine zentrale Herausforderung, wenn sie in kritischen Bereichen eingesetzt werden sollen.