Occiglot: Neue Initiative für europäische Sprachmodelle gestartet

KI-Sprachmodelle wie beispielsweise ChatGPT bieten eine Vielzahl von Nutzungsmöglichkeiten und haben sich innerhalb kürzester Zeit weltweit verbreitet. Für das Training solcher sogenannter Large Language Models (LLM) sind riesige Datenmengen und Rechenressourcen nötig. Aufgrund der sich daraus ergebenden hohen Kosten für Rechenzeit und der in der Regel ökonomischen Verwendung werden Werte wie sprachliche Vielfalt oder Mehrsprachigkeit dabei oftmals nicht berücksichtigt.
Hier setzt Occiglot an: Das Forschungskollektiv, das maßgeblich aus Forschenden der TU Darmstadt sowie des Hessischen Zentrums für Künstliche Intelligenz (hessian.AI) und des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) besteht, hat nun eine Initiative für europäische KI-Sprachmodelle gestartet – akademisch, gemeinnützig und Open-Source-basiert. Mit der heutigen Ankündigung veröffentlicht Occiglot die ersten zehn Modelle, die sich zunächst auf die fünf größten europäischen Sprachen konzentrieren: Englisch, Deutsch, Französisch, Spanisch und Italienisch. Um den Austausch von Erkenntnissen und Feedback innerhalb von Europa zu ermöglichen, findet die Kommunikation auf einem öffentlichen Discord-Server statt.

Die Beteiligung von Nutzenden und weiteren Forschenden ist nicht nur ausdrücklich erwünscht, sondern auch erforderlich, um die benötigten Trainingsdaten für das Sprachmodell erstellen und bewerten zu können. Weitere Europäische KI-Zentren haben bereits ihr Interesse an einer Kollaboration bekundet.
Ziel von Occiglot ist die Schaffung eines zusammenhängenden Sprachmodellierungssystems, das alle 24 Amtssprachen der Europäischen Union sowie weitere inoffizielle und regionale Sprachen berücksichtig.

hessian.AI und das DFKI unterstützen diese Initiative, indem sie im Jahr 2024 eine beträchtliche Menge an Rechenzeit auf ihren KI-Supercomputern zur Verfügung stellen.