Research & Application – 3rd wave of AI

Die Forschungsaktivitäten des hessischen KI-Servicezentrums dienen dazu eine Brücke von der KI-Forschung zur Anwendung zu schlagen und die Marke “KI made in Germany” zu stärken. Hierbei liegt der Fokus darauf die Ergebnisse unserer Grundlagenforschung in Services und Anwendungen zu überführen, aus welchen sich wiederum neue Fragestellungen für die Forschung ergeben.

Research and Application

Das Servicezentrum arbeitet hierbei eng mit den Forschenden von hessian.AI, dem öffentlichen Dienst und den hessischen Unternehmen zusammen, um mit Demonstratoren und direkt anwendbaren Modellen die Hürde für den Einstieg in die Anwendung von künstlicher Intelligenz zu senken.

Die weitgefächerten Weiterbildungs- und Serviceangebote unterstützen die Nutzenden zusätzlich bei der Anwendung der bereitgestellten Forschungsergebnisse.

Forschungsschwerpunkte

Das hessische KI Servicezentrums konzentriert sich im Rahmen der 3. Welle von KI auf

  • große verallgemeinerbare Modelle
  • Transparenz & Erklärbarkeit
  • kontextuelle Adaption
  • Ausnutzung spezifischer (Netzwerk-)Strukturen

mit dem Ziel, robuste, sichere und nachhaltige KI-Systeme für ein breites Spektrum von Nutzern zu entwickeln und bereitzustellen.

Datensätze, Modelle und Demonstratoren

Im Rahmen der bisherigen Forschung des KI Servicezentrums wurden die nachfolgenden Modelle entwickelt, trainiert und als Demonstratoren durch hessian.AI bereitgestellt:

LeoLM – First open German Foundation Language Model

LeoLM (Linguistically Enhanced Open Language Model) ist ein hochwertiges bilinguales (deutsch / englisch) Sprachmodell. Es basierent auf der LLama-2 Architektur und wurde mit einem umfangreichen, qualitativ hochwertigen deutschen Textkorpus trainiert und feinabgestimmt.

Vortrainiert wurde LeoLM mit 2 Milliarden primär englischsprachigen Tokens und zusätzlich anhand von 65 Milliarden gezielt gefilterten und dedupliziertem Token aus Webtexten des OSCAR-2301-Korpus. Die Feinabstimmung des Modells erfolgte anhand von sechs deutsch oder deutsch-englisch sprachigen Datensätzen.

Die Qualität des Modells wurde durch den Einsatz von linearer RoPE-Skalierung und Flash Attention 2 zur Verbesserung der Trainingseffizienz und Verdoppelung der Kontextlänge auf 8k Token verbessert.

Nachfolgend finden Sie eine detaillierte Beschreibung des Modells, die zugehörigen Repositories und entsprechende Chat-Demonstratoren.

Das Projekt wurde in Kooperation zwischen dem hessischen KI Servicezentrum und LAION gemeinnütziger e.V. entwickelt. Vielen Dank für die sehr gute Kooperation und Unterstützung.

Detaillierte Beschreibung: LeoLM: Igniting German-Language LLM Research | LAION
Demonstrator 7b: Gradio
Repository 7b: LeoLM/leo-hessianai-7b · Hugging Face
Demonstrator 13b: LeoLM 13b Chat – a Hugging Face Space by LeoLM
Repository 13b: LeoLM/leo-hessianai-13b · Hugging Face


StripedHyena-7B – Long context LLM

Das StripedHyena7B Modell basiert auf der hybriden Hyena Architektur, die sich aus mehrköpfigen, gruppierten Abfragen und in Hyena-Blöcken angeordneten Gated Convolutions zusammensetzt und sich von den herkömmlichen Decoder-Only-Transformern unterscheidet.

Diese Architektur ermöglicht

  • eine kostengünstige Speicherdekodierung in Hyena-Blöcken durch Darstellung von Faltungen als Zustandsraummodelle (modale oder kanonische Form) oder als verkürzte Filter.
  • Geringe Latenz, schnellere Dekodierung und höherer Durchsatz als bei Transformers.
  • Verbesserung der Trainings- und Inferenz-optimalen Skalierungsgesetze im Vergleich zu optimierten Transformer-Architekturen wie Llama-2.
  • Durch das Training auf Sequenzen von bis zu 32k, können auch längere Prompts verarbeitet werden.

Hiermit ist StripedHyena 7B das erste alternative Modell, das mit den besten Open-Source-Transformern in Kurz- und Langkontextbewertungen konkurrenzfähig ist.

Das Projekt wurde in Kooperation zwischen dem hessischen KI Servicezentrum und Together Computer Inc. entwickelt. Vielen Dank für die sehr gute Zusammenarbeit und Unterstützung.

Detaillierte Beschreibung: Paving the way to efficient architectures: StripedHyena-7B, open source models offering a glimpse into a world beyond Transformers
Repository 13b Foundation model: togethercomputer/StripedHyena-Hessian-7B · Hugging Face
Repository 13b Chat model: togethercomputer/StripedHyena-Nous-7B · Hugging Face


Occiglot-7B-EU5 – Multilingual European LLM

Occiglot-7B-EU5 ist ein generatives Sprachmodell mit 7 Milliarden Parametern, welche die 5 wichtigsten EU-Sprachen (Englisch, Spanisch, Französisch, Deutsch und Italienisch) unterstützt. Es basiert auf Mistral-7B-v0.1 und wurde auf 293 Milliarden Token zusätzlicher mehrsprachiger und codierter Daten mit einer Blockgröße von 8.192 Token pro Probe trainiert.

Bei dem Modell handelt es sich um ein allgemeines Basismodell, welches weder auf Befehle abgestimmt noch für Chats oder andere Anwendungen optimiert wurde.

Das Modell wurde in Kooperation zwischen dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) dem hessischen KI Servicezentrum trainiert.

Repository: occiglot/occiglot-7b-eu5 · Hugging Face


Aktuelle Forschungsaktivitäten

Unsere Doktorranden forschen hierbei:

Intelligent data documentation and data cleansing [Lukas Helff]

Die Qualität und Größe von Trainingsdatensätzen ist entscheidend für die erfolgreiche Entwicklung von modernen KI-Anwendungen. Datendokumentation und Datencleansing spielen hierbei eine zentrale Rolle, insbesondere mit dem Aufkommen beliebter Modelle wie GPT-4, die in verschiedenen Bereichen an Bedeutung gewinnen. Mit der wachsenden Autonomie dieser KI-Systeme erweitern sich ihre gesellschaftlichen, wissenschaftlichen und industriellen Auswirkungen, was hochwertige Daten zur Vermeidung von Verzerrungen und Stereotypen erforderlich macht.

Die manuelle Annotation großer Datensätze ist nicht nur fehleranfällig, sondern auch mühsam und mit hohen Humanressourcen verbunden. Intelligente Datendokumentation und Datenbereinigung stellen daher zentrale Lösungen für diese Herausforderungen dar, mit dem Ziel, die Vorbereitung hochwertiger Datensätze für KI-Anwendungen zu optimieren.

In diesem Zusammenhang konzentriert sich dieses Projekt auf das Potenzial von Maschinen, bei der Dokumentation potenziell unangemessener Inhalte zu assistieren, indem das in Transformer-Modellen gespeicherte Wissen genutzt wird. Dies könnte den menschlichen Arbeitsaufwand bei der Datenvorbereitung erheblich reduzieren.

Hierbei ist es das Ziel, intelligente Datendokumentation und Datencleansing zu entwickeln, welche als Services angeboten werden können, um unangemessene Content zu erkennen. Geplante Schritte umfassen das Trainieren von Dokumentationsmodellen für Bilder, die Erweiterung auf Text- und tabellarische Daten sowie die automatische Dokumentation von gemischten Daten. Durch generativen und axiomatischen Abgleich der Dokumentationsmodelle sowie die Bereitstellung als Service wird die Praxistauglichkeit und Marktfähigkeit sichergestellt.

Die Ergebnisse dieses Forschungsprojekts werden im KI-Servicezentrum als Module für die Datendokumentation, -bereinigung und Qualitätssicherung eingesetzt.


Adaptation of large (vision) language models [Christopher Tauchmann]

Dieses Projekt konzentriert sich auf die Anpassung großer (Bildverarbeitungs-) Sprachmodelle an nachgelagerte Aufgaben und auch an allgemeinere Anforderungen. Um dieses Ziel zu erreichen, verfolgen wir mehrere Forschungslinien.

Ein besonderes Interesse liegt in der Verwendung von modularen und parameter-effizienten Transfer-Learning-Methoden. Solche Methoden aktualisieren nur einen Bruchteil der Parameter eines Modells, fügen eine kleine Anzahl von trainierbaren Parametern hinzu oder verwenden bereits vorhandene Parameter wieder. Andere Methoden lernen kleinere Modelle aus größeren Modellen oder kombinieren mehrere Module.

In diesem Sinne ist die Verwendung verschiedener Prompting-Techniken, d.h. die Analyse und Nutzung von In-Context-Learning-Fähigkeiten (bei denen ein Modell aus Beispielen in der Eingabeaufforderung lernt) sehr vielversprechend, um Modelle on-the-fly anzupassen; oder im Falle von Instruktionstuning als verwandte Lerntechnik, um Modelle auf bestimmte Anforderungen einzustellen. Retrieval augmented generation nutzt externes Wissen, um die Fähigkeiten eines Modells zu erweitern.

Darüber hinaus tauchen wir tief in Modellarchitekturen ein, d. h. wir interpretieren und bearbeiten modellinterne Repräsentationen. Dies kann z. B. durch die Verfolgung des Informationsflusses oder die Analyse einzelner Modellkomponenten geschehen. Ein solcher Ansatz betrachtet die Module des Modells als Teil eines Stroms, der an jedem beliebigen Punkt auf die Eingabe zurückgeführt werden kann, wobei die Bearbeitung des Stroms an bestimmten Stellen zu messbaren Ergebnissen führt.

Wir finden es interessant zu sehen, welche Aufgaben von verschiedenen Ansätzen profitieren. Da die heutigen sehr großen Modelle bei einer großen Anzahl von Aufgaben sehr gut abschneiden, sind wir im Falle von reinen Sprachmodellen bei den meisten, wenn nicht sogar bei allen traditionelleren NLP-Aufgaben besonders an ihren Argumentationsfähigkeiten interessiert.


AI hardware for Data Processing [Nils Boeschen]

Im Rahmen dieses Projekts wird untersucht wie moderne KI Hardware (z.B. GPUs) genutzt werden können, um Datenverarbeitungsaufgaben (data processing) mit intensivem Festplatten- und Netzwerkzugriff zu beschleunigen.

GPUs sind leistungsstarke Recheneinheiten für viele daten- und verarbeitungsintensive Arbeitslasten und übertreffen CPUs bei diesen Aufgaben um mehrere Größenordnungen. Aus diesem Grund wird untersucht, wie die Geschwindigkeitsvorteile von GPUs für die Datenverarbeitung auf modernen Speichern und in schnellen Netzwerken genutzt werden können.

Die bisherigen Ergebnisse zeigen, dass GPUs mit Techniken wie schwergewichtiger Dekompression und Pruning eine erhebliche Steigerung der Datenlast und der Verarbeitungsbandbreite erreichen können, welche heute für CPU-Systeme unerreichbar ist.


Scalable Data Processing using Tensor Runtimes [Nils Boeschen]

Im Rahmen dieses Projekts wird untersucht, wie aktuelle Tensor-Frameworks wie PyTorch und Tensorflow als Plattformen für die verteilte Abfrageverarbeitung genutzt werden können. Diese Frameworks sind als universelle Abfrageverarbeitungsprogramme interessant, da sie eine Vielzahl von Hardwaretypen (CPUs, GPUs, TPUs, etc.), Datenformaten und Datenoperationen sofort unterstützen.

Es hat sich gezeigt, dass SQL-Abfragen für Einzelknoten-Setups in eine Reihe von Operationen umgewandelt werden können, die mit Tensor-Laufzeiten vergleichbar sind, und dass die Performanz dieser Art der Ausführung vergleichsweise hoch ist. Es ist jedoch noch unklar, ob diese Vorteile auch in einer vernetzten Umgebung zum Tragen kommen.

Da die verteilte Abfrageverarbeitung effiziente schlüsselbasierte Netzwerk-Mischungen, die Überlappung von Netzwerk- und Rechenoperationen sowie die Behandlung von Schräglagen erfordert, ist die Transformation nicht trivial. In diesem Forschungszweig wird untersuche, wie verteilte Abfragen so transformiert werden können, dass sie mit denselben Vorteilen effizient über Tensor-Frameworks ausgeführt werden können.


Code Transformers [Mert Tiftikci]

Das Projekt Code Transformers konzentriert sich auf das Verständnis und die Verbesserung generativer KI-Modelle für Programmcode. Die erstellten fortschrittlichen Code-Modelle können Entwicklern bei ihren Aufgaben helfen, ebenso wie ihren Kollegen im Sinne des Pair Programming. Es reicht nicht aus, kompilierbaren und leicht lesbaren Code zu erzeugen. Er muss auch die vom Entwickler aufgeworfenen Probleme lösen und dabei die Industriestandards auch bei neu eingeführten Projekten und Bibliotheken einhalten. Dies kann erreicht werden, wenn KI-Modelle den Code syntaktisch und semantisch verstehen können.

Derzeitige Hochleistungsmodelle verfügen über Blackbox-Strukturen, die aus riesigen Datenmengen lernen, die durch das Sammeln von Code in der „freien Wildbahn“ entstanden sind. Solche Datensätze enthalten anfälligen Code oder sogar Malware. Es ist auch erwähnenswert, dass viele dieser Modelle aus diesen Datensätzen lernen, indem sie die Vervollständigung eines bestimmten Codes sequenziell vorhersagen und dabei die reichhaltige Struktur, die er enthält, außer Acht lassen.

Das Projekt Code Transformers zielt darauf ab, effiziente Code-Modelle zu entwickeln, indem zunächst die Tiefe ihres Verständnisses und ihre Grenzen untersucht werden. Anschließend werden anpassbare und modulare Strukturen entworfen, die verschiedene Techniken wie multimodales Training oder neurosymbolisches Lernen nutzen können. Solche Modelle können reichhaltige Metadaten nutzen, die mit dem Code verknüpft sind, sie passen sich den Benutzerpräferenzen an und sind vertrauenswürdiger, da sie Erklärungen für ihre Generationen liefern können.


Use of structure and multimodality in transformer models [Falko Helm]

The research project „Structure and Multimodality for Transformer Networks“ is about dealing with documents such as PDF and XML files (e.g. MS Word). 
In the past, language understanding systems discarded everything but the plain text when processing a document. The goal of this project is to work directly with raw documents without any preprocessing. This includes considering the different modalities (text, images, tables, charts) as well as their interplay in the form of layout and explicit links.


To provide some background, let’s dissect the project title word by word. „Multimodality“ means that there are non-text elements present in the document. For example, these can be images, tables or charts. The modalities video and audio are not considered because they are quite rare in business documents. Importantly, multimodality means that the modalities are interleaved and their interplay is complex, i.e. we will go beyond simple pairs of image and corresponding text caption.



The term „structure“ refers to everything which goes beyond text as a plain sequence of characters. Structure can manifest itself via linebreaks in a poem, chapters in a book or columns in a newspaper. Further, „structure“ also describes the relations between text and non-text elements of a document. This can be implicit by the spatial arrangement or explicit via references to tables and charts.



A „Transformer“ is a special kind of Neural Network (i.e. a model that can learn from data) and can be used for analysis and prediction. In the language domain, most recent breakthroughs (i.e. ChatGPT) were mainly due to this architecture. Currently, the vanilla Transformer pushes hardware to the limit as its key component, the so-called self-attention, scales poorly with sequence length. Thus, we also want to look into recent attention-free models, e.g. state space models such as Mamba.


The goal of the project is to provide an easy-to-use Code-Framwork for understanding multimodal content input.


Support for non-standard DNNs [Tim Noack]

Trotz ihrer weiten Verbreitung haben herkömmliche neuronale Netze mit der Modellierung von Unsicherheiten zu kämpfen und erfordern umfangreiche Trainingsdaten. Diese Einschränkungen können problematisch sein, wenn ihre Vorhersagen beispielsweise verständlich sein müssen. Probabilistische Schaltungen (PC) bieten eine überzeugende Alternative zu neuronalen Netzen.

Summenproduktnetze (SPNs), ein wichtiges Mitglied der PC-Familie, zeichnen sich durch ihre effiziente Inferenzfähigkeit, die Fähigkeit, mit relativ wenigen Daten und Hyperparametern trainiert zu werden, und ihre Fähigkeit, die Unsicherheit ihrer Vorhersagen zu modellieren, aus. SPNs auf Rechenplattformen wie CPUs, GPUs und FPGAs einzusetzen, stellt jedoch eine Herausforderung dar. Insbesondere passen diese Netze aufgrund ihrer spärlichen Verbindungen und der Konvergenz zu einem einzigen Ausgangsknoten nicht gut zu massiv-parallelen Architekturen.

Dieses Projekt befasst sich mit diesen Problemen durch die Entwicklung eines MLIR-basierten SPNC-Compilers. Der SPNC-Compiler soll die Lücke zwischen fortschrittlichen Hardware-Architekturen und der Zugänglichkeit dieser leistungsstarken Modelle für KI-Praktiker ohne Hardware-Kenntnisse schließen.

Diese Integration maximiert den Nutzen der Hardware und minimiert die notwendige Lernkurve für KI-Forscher und Entwickler. Durch die effiziente Berechnung von SPNs auf spezialisierter Hardware, wie FPGAs und IPUs, eröffnet unser Projekt neue Wege für KI-Anwendungen.


Aktuelle Anwendungsprojekte

ETH Text-to-Music

In Kooperation mit der ETH Zürich wird ein Text-to-Musik Diffusion-Model mit 1- 3 millarden parametern trainiert, welches auf Basis von Text-Prompts und Parametern wie Tempo & Schlagworten Musikstücke erzeugt.

Als Basis für das Training des Modells dient ein hochwertiger Teildatensatz des FMA music datasets und des Jamendo royalty-free music dataset.

Im Ergebnis des gemeinsamen Projekts soll das trainierte Modell, sowie die Trainingsdaten unter Open Source Lizenz publiziert werden.

Kooperationspartner: Luca Lanzendörfer, Distributed Computing Group, ETH Zürich

Haris‘ MorphPiece Tokenisation

In Kooperation mit Haris Jabbar validieren und evaluieren wir Ein neuartiges Tokenisierungsschema für die englische Sprache, das morphebasierte Segmentierung mit Byte Pair Encoding integriert, um NLP-Modelle zu verbessern.

Das Ziel ist es einen stärker linguistisch ausgerichteter Tokenisierungsmechanismus zu testen, der das Verständnis des Modells für sprachliche Nuancen verbessert und hiermit auch die Leistung des Modells. Gleichzeitig soll er die effizientere Handhabung von Sprachen mit reichhaltigen Morphologie (im Vergleich zu Methoden, die sich nur auf statistische Analysen stützen) unterstüzten.