Group photo with the participants of the joint project “DataHub Europe”, which was presented on October 21 as part of the Digital Summit in Frankfurt.

„DataHub Europe“ eine KI-Plattform mit hessian.AI-Beteiligung

Das Hessische Zentrum für Künstliche Intelligenz, spielt eine Schlüsselrolle im europaweiten Vorhaben „DataHub Europe“. Die Plattform vereint Unternehmen wie Schwarz Digits, die IT- und Digitalsparte der Schwarz Gruppe, und die Deutsche Bahn AG sowie öffentliche Einrichtungen und Forschungseinrichtungen (u.a. DFKI / TU Darmstadt / hessian.AI), um KI-Modelle unter höchsten Standards für Datenschutz und Sicherheit zu entwickeln. Ziel ist es, vertrauenswürdige KI-Lösungen für den europäischen Markt zu schaffen und gleichzeitig die digitale Souveränität Europas zu stärken.

Worum geht es beim DataHub Europe?

„DataHub Europe“ ist eine innovative Plattform, die hochwertige Daten aus unterschiedlichen Branchen – wie Industrie und Medien – sammelt, aufbereitet und zur Verfügung stellt. Diese Daten ermöglichen es Partnern, KI-Modelle in einer sicheren Infrastruktur zu trainieren und auf spezifische Anwendungsfälle anzupassen. Mit der Einhaltung von EU-weiten Vorschriften wie der DSGVO und dem AI Act wird eine rechtlich und ethisch einwandfreie Nutzung der Daten gewährleistet.

Prüfung der Datenqualität durch hessian.AI und der TU Darmstadt

KI-Forschende aus Darmstadt waren von Anfang an entscheidend an der Entwicklung des DataHub Europe beteiligt. Die beiden Forscher Dr. Patrick Schramowski und Manuel Brack (hessian.AI/TU Darmstadt/DFKI) arbeiten federführend an der Umsetzung.

Projektleiter Simon Schampijer und seinem Team Ashal Ashal und Lev Dadashev vom KI-Innovationslabor | von hessian.AI evaluierten gemeinsam mit dem DFKI die Datenqualität der von den Medienpartnern Frankfurter Allgemeine Zeitung und DvH Medien (Handelsblatt) zur Verfügung gestellten Trainingsdaten. Die Bewertung umfasste eine Kompetenzbewertung, das Sprachverständnis und die Wissensbreite.

Die Ergebnisse zeigten, dass die Qualität der Daten insgesamt mit dem hohen Standard (für Common Crawl) der Wikipedia-Daten vergleichbar war. Die Daten waren nicht Teil des Common Crawl. Um eine größere Wirkung zu erzielen, müssten die Daten vielfältiger sein (siehe Diversitäts-Benchmarks). Eine weitere Erkenntnis war, dass die OSCAR Pipelines (die auch in der Occiglot LLM-Schulung verwendet wird) bei der Vorverarbeitung von Common-Crawl-Daten einen erheblichen Beitrag leistet – was die Bedeutung der Datenkuratierung unterstreicht.

Ein besonderes Highlight des Projekts ist die Nutzung des KI-Supercomputers „fortytwo“, der von hessian.AI betrieben wird. Die Darmstädter KI-Experten führten die das Weitertrainieren der Modelle und die Datenevaluierung auf dem Hochleistungsrechner aus. Zusätzlich kamen innovative Datenverarbeitungswerkzeuge aus der Initiative Occiglot zum Einsatz. Prof. Dr. Kristian Kersting, Co-Direktor von hessian.AI, betont:

„Mit dem DataHub können wir die Leistungsfähigkeit großer Sprachmodelle im deutschsprachigen Raum erheblich steigern und gleichzeitig sicherstellen, dass diese Modelle auf einer rechtssicheren Grundlage entwickelt werden.“

Ein Katalysator für europäische KI-Innovationen

DataHub Europe fördert die Entwicklung leistungsfähiger, vertrauenswürdiger und datensicherer KI-Anwendungen. Unternehmen wie die Deutsche Bahn und Schwarz Digits nutzen die Plattform bereits, um KI-Lösungen wie „AuditGPT“ zu entwickeln, das die Effizienz in Unternehmensrevisionen steigert.

hessian.AI unterstreicht mit seiner Beteiligung die Bedeutung von Kooperationen in der europäischen KI-Forschung und trägt wesentlich dazu bei, das volle Potenzial von „KI made in Europe“ zu entfalten.

Bild: BMDV / Sebastian Woithe