Equation Discovery: Wie KI wissenschaftliche Entdeckung automatisieren könnte
Über Jannis Brugger
Jannis Brugger studierte Naturwissenschaften und Informatik in Koblenz und Mainz, wo er begann, sich mit Künstlicher Intelligenz zu beschäftigen.
Derzeit promoviert er bei hessian.AI im Rahmen des Projekts 3AI (The Third Wave of AI).
Wissenschaftliche Entdeckung automatisiert
Jannis Bruggers Spezialgebiet ist das Equation Discovery, bei dem es darum geht, aus Datensätzen mathematische Formeln abzuleiten.
Brugger nennt ein einfaches Beispiel: „Wenn wir zum Beispiel einen Datensatz mit zwei Massenkörpern haben, können wir versuchen, daraus die Gravitationsgesetze abzuleiten.“
Weitere Anwendungsfelder sind die Materialwissenschaften, wo man etwa bessere Batterien entwickeln könnte, oder die Biochemie, wo man Formeln finden könnte, die beschreiben, wie sich Moleküle zusammensetzen.
Equation Discovery könnte daher in Zukunft zu einem Standardwerkzeug für Wissenschaftler werden, das Daten aus Tausenden von Experimenten analysiert und eine Reihe von Formeln generiert, die dann von den Wissenschaftlern untersucht werden können.
Die Grammatik gibt KI die Regeln vor
Das Besondere an Bruggers Forschung ist der neuro-symbolische Fokus: Er kombiniert in seiner Arbeit neuronale Netze mit Regeln, die die Bildung von Formeln beschreiben, also eine Grammatik.
Das neuronale Netz analysiert die Daten und sucht innerhalb der Grammatik nach neuen Formeln, die gut zu den Mustern in den Daten passen.
Ein Vorteil dieser Methode ist, dass der Forscher die gefundenen Formeln interpretieren und umformen kann – und das Netz nur wohlgeformte Formeln ausgibt.
Dies unterscheide seinen Ansatz von anderen Methoden, die beispielsweise ausschließlich auf Transformer-Modelle setzten, wie sie ChatGPT zugrunde liegen.
Der Einsatz solcher Modelle ist zwar vielversprechend, aber der Verzicht auf eine Grammatik kann beispielsweise nicht verhindern, dass das KI-Modell falsche Syntax ausgibt, etwa ein Additionszeichen mehrfach hintereinander generiert. Die Grammatik hingegen gibt einen klaren Suchraum vor, den das Modell erkundet.
Außerdem erlaubt die Grammatik theoretisch die Integration von Domänenwissen – also dem Wissen, das Wissenschaftler bereits über ein Forschungsgebiet gesammelt haben. Dies schränkt den Suchraum ein und kann so die Entdeckung neuer, nützlicher Formeln beschleunigen.
Echtwelt-Daten bleiben eine Herausforderung
Seine Position bei hessian.AI ermögliche es ihm, sich bei seiner Arbeit mit verschiedenen Experten aus anderen Bereichen auszutauschen; das 3AI-Projekt umfasst mittlerweile mehr als ein Dutzend Doktoranden, die in verschiedenen Arbeitsgruppen tätig sind.
Die verschiedenen Gruppen hätten oft einen einzigartigen Blick auf ähnliche Probleme, so gebe es zum Beispiel Überschneidungen zwischen Equation Discovery, Programmsynthese und dem Finden von Beweisen.
Eine große Herausforderung in seiner Arbeit sieht Brugger im Umgang mit „noisy data“, also Daten aus der realen Welt, die Messungenauigkeiten enthalten oder aus unterschiedlichen Quellen stammen.
Erfolgreiche Equation Discovery ist daher heute noch auf „perfekte Daten“ beschränkt und weitere Forschung ist notwendig, um das Versprechen der Methode einzulösen
Sollte dies gelingen, könnte Equation Discovery die Wissenschaft – und damit unsere Gesellschaft – für immer verändern.