Die Forschungsaktivitäten des hessischen KI-Servicezentrums dienen dazu eine Brücke von der KI-Forschung zur Anwendung zu schlagen und die Marke “KI made in Germany” zu stärken. Hierbei liegt der Fokus darauf die Ergebnisse unserer Grundlagenforschung in Services und Anwendungen zu überführen, aus welchen sich wiederum neue Fragestellungen für die Forschung ergeben.
Das Servicezentrum arbeitet hierbei eng mit den Forschenden von hessian.AI, dem öffentlichen Dienst und den hessischen Unternehmen zusammen, um mit Demonstratoren und direkt anwendbaren Modellen die Hürde für den Einstieg in die Anwendung von künstlicher Intelligenz zu senken.
Die weitgefächerten Weiterbildungs- und Serviceangebote unterstützen die Nutzenden zusätzlich bei der Anwendung der bereitgestellten Forschungsergebnisse.
Das hessische KI Servicezentrums konzentriert sich im Rahmen der 3. Welle von KI auf
mit dem Ziel, robuste, sichere und nachhaltige KI-Systeme für ein breites Spektrum von Nutzern zu entwickeln und bereitzustellen.
Im Rahmen der bisherigen Forschung des KI Servicezentrums wurden die nachfolgenden Modelle entwickelt, trainiert und als Demonstratoren durch hessian.AI bereitgestellt:
LeoLM (Linguistically Enhanced Open Language Model) ist ein hochwertiges bilinguales (deutsch / englisch) Sprachmodell. Es basierent auf der LLama-2 Architektur und wurde mit einem umfangreichen, qualitativ hochwertigen deutschen Textkorpus trainiert und feinabgestimmt.
mehr lesen
Vortrainiert wurde LeoLM mit 2 Milliarden primär englischsprachigen Tokens und zusätzlich anhand von 65 Milliarden gezielt gefilterten und dedupliziertem Token aus Webtexten des OSCAR-2301-Korpus. Die Feinabstimmung des Modells erfolgte anhand von sechs deutsch oder deutsch-englisch sprachigen Datensätzen.
Die Qualität des Modells wurde durch den Einsatz von linearer RoPE-Skalierung und Flash Attention 2 zur Verbesserung der Trainingseffizienz und Verdoppelung der Kontextlänge auf 8k Token verbessert.
Nachfolgend finden Sie eine detaillierte Beschreibung des Modells, die zugehörigen Repositories und entsprechende Chat-Demonstratoren.
Das Projekt wurde in Kooperation zwischen dem hessischen KI Servicezentrum und LAION gemeinnütziger e.V. entwickelt. Vielen Dank für die sehr gute Kooperation und Unterstützung.
Detaillierte Beschreibung: LeoLM: Igniting German-Language LLM Research | LAION
Demonstrator 7b: Gradio
Repository 7b: LeoLM/leo-hessianai-7b · Hugging Face
Demonstrator 13b: LeoLM 13b Chat – a Hugging Face Space by LeoLM
Repository 13b: LeoLM/leo-hessianai-13b · Hugging Face
Das StripedHyena7B Modell basiert auf der hybriden Hyena Architektur, die sich aus mehrköpfigen, gruppierten Abfragen und in Hyena-Blöcken angeordneten Gated Convolutions zusammensetzt und sich von den herkömmlichen Decoder-Only-Transformern unterscheidet.
mehr lesen
Diese Architektur ermöglicht
Hiermit ist StripedHyena 7B das erste alternative Modell, das mit den besten Open-Source-Transformern in Kurz- und Langkontextbewertungen konkurrenzfähig ist.
Das Projekt wurde in Kooperation zwischen dem hessischen KI Servicezentrum und Together Computer Inc. entwickelt. Vielen Dank für die sehr gute Zusammenarbeit und Unterstützung.
Detaillierte Beschreibung: Paving the way to efficient architectures: StripedHyena-7B, open source models offering a glimpse into a world beyond Transformers
Repository 13b Foundation model: togethercomputer/StripedHyena-Hessian-7B · Hugging Face
Repository 13b Chat model: togethercomputer/StripedHyena-Nous-7B · Hugging Face
Occiglot-7B-EU5 ist ein generatives Sprachmodell mit 7 Milliarden Parametern, welche die 5 wichtigsten EU-Sprachen (Englisch, Spanisch, Französisch, Deutsch und Italienisch) unterstützt. Es basiert auf Mistral-7B-v0.1 und wurde auf 293 Milliarden Token zusätzlicher mehrsprachiger und codierter Daten mit einer Blockgröße von 8.192 Token pro Probe trainiert.
mehr lesen
Bei dem Modell handelt es sich um ein allgemeines Basismodell, welches weder auf Befehle abgestimmt noch für Chats oder andere Anwendungen optimiert wurde.
Das Modell wurde in Kooperation zwischen dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) dem hessischen KI Servicezentrum trainiert.
Repository: occiglot/occiglot-7b-eu5 · Hugging Face
Unsere Doktorranden forschen hierbei:
Die Qualität und Größe von Trainingsdatensätzen ist entscheidend für die erfolgreiche Entwicklung von modernen KI-Anwendungen. Datendokumentation und Datencleansing spielen hierbei eine zentrale Rolle, insbesondere mit dem Aufkommen beliebter Modelle wie GPT-4, die in verschiedenen Bereichen an Bedeutung gewinnen. Mit der wachsenden Autonomie dieser KI-Systeme erweitern sich ihre gesellschaftlichen, wissenschaftlichen und industriellen Auswirkungen, was hochwertige Daten zur Vermeidung von Verzerrungen und Stereotypen erforderlich macht.
mehr lesen
Die manuelle Annotation großer Datensätze ist nicht nur fehleranfällig, sondern auch mühsam und mit hohen Humanressourcen verbunden. Intelligente Datendokumentation und Datenbereinigung stellen daher zentrale Lösungen für diese Herausforderungen dar, mit dem Ziel, die Vorbereitung hochwertiger Datensätze für KI-Anwendungen zu optimieren.
In diesem Zusammenhang konzentriert sich dieses Projekt auf das Potenzial von Maschinen, bei der Dokumentation potenziell unangemessener Inhalte zu assistieren, indem das in Transformer-Modellen gespeicherte Wissen genutzt wird. Dies könnte den menschlichen Arbeitsaufwand bei der Datenvorbereitung erheblich reduzieren.
Hierbei ist es das Ziel, intelligente Datendokumentation und Datencleansing zu entwickeln, welche als Services angeboten werden können, um unangemessene Content zu erkennen. Geplante Schritte umfassen das Trainieren von Dokumentationsmodellen für Bilder, die Erweiterung auf Text- und tabellarische Daten sowie die automatische Dokumentation von gemischten Daten. Durch generativen und axiomatischen Abgleich der Dokumentationsmodelle sowie die Bereitstellung als Service wird die Praxistauglichkeit und Marktfähigkeit sichergestellt.
Die Ergebnisse dieses Forschungsprojekts werden im KI-Servicezentrum als Module für die Datendokumentation, -bereinigung und Qualitätssicherung eingesetzt.
Dieses Projekt konzentriert sich auf die Anpassung großer (Bildverarbeitungs-) Sprachmodelle an nachgelagerte Aufgaben und auch an allgemeinere Anforderungen. Um dieses Ziel zu erreichen, verfolgen wir mehrere Forschungslinien.
mehr lesen
Ein besonderes Interesse liegt in der Verwendung von modularen und parameter-effizienten Transfer-Learning-Methoden. Solche Methoden aktualisieren nur einen Bruchteil der Parameter eines Modells, fügen eine kleine Anzahl von trainierbaren Parametern hinzu oder verwenden bereits vorhandene Parameter wieder. Andere Methoden lernen kleinere Modelle aus größeren Modellen oder kombinieren mehrere Module.
In diesem Sinne ist die Verwendung verschiedener Prompting-Techniken, d.h. die Analyse und Nutzung von In-Context-Learning-Fähigkeiten (bei denen ein Modell aus Beispielen in der Eingabeaufforderung lernt) sehr vielversprechend, um Modelle on-the-fly anzupassen; oder im Falle von Instruktionstuning als verwandte Lerntechnik, um Modelle auf bestimmte Anforderungen einzustellen. Retrieval augmented generation nutzt externes Wissen, um die Fähigkeiten eines Modells zu erweitern.
Darüber hinaus tauchen wir tief in Modellarchitekturen ein, d. h. wir interpretieren und bearbeiten modellinterne Repräsentationen. Dies kann z. B. durch die Verfolgung des Informationsflusses oder die Analyse einzelner Modellkomponenten geschehen. Ein solcher Ansatz betrachtet die Module des Modells als Teil eines Stroms, der an jedem beliebigen Punkt auf die Eingabe zurückgeführt werden kann, wobei die Bearbeitung des Stroms an bestimmten Stellen zu messbaren Ergebnissen führt.
Wir finden es interessant zu sehen, welche Aufgaben von verschiedenen Ansätzen profitieren. Da die heutigen sehr großen Modelle bei einer großen Anzahl von Aufgaben sehr gut abschneiden, sind wir im Falle von reinen Sprachmodellen bei den meisten, wenn nicht sogar bei allen traditionelleren NLP-Aufgaben besonders an ihren Argumentationsfähigkeiten interessiert.
Im Rahmen dieses Projekts wird untersucht wie moderne KI Hardware (z.B. GPUs) genutzt werden können, um Datenverarbeitungsaufgaben (data processing) mit intensivem Festplatten- und Netzwerkzugriff zu beschleunigen.
mehr lesen
GPUs sind leistungsstarke Recheneinheiten für viele daten- und verarbeitungsintensive Arbeitslasten und übertreffen CPUs bei diesen Aufgaben um mehrere Größenordnungen. Aus diesem Grund wird untersucht, wie die Geschwindigkeitsvorteile von GPUs für die Datenverarbeitung auf modernen Speichern und in schnellen Netzwerken genutzt werden können.
Die bisherigen Ergebnisse zeigen, dass GPUs mit Techniken wie schwergewichtiger Dekompression und Pruning eine erhebliche Steigerung der Datenlast und der Verarbeitungsbandbreite erreichen können, welche heute für CPU-Systeme unerreichbar ist.
Im Rahmen dieses Projekts wird untersucht, wie aktuelle Tensor-Frameworks wie PyTorch und Tensorflow als Plattformen für die verteilte Abfrageverarbeitung genutzt werden können. Diese Frameworks sind als universelle Abfrageverarbeitungsprogramme interessant, da sie eine Vielzahl von Hardwaretypen (CPUs, GPUs, TPUs, etc.), Datenformaten und Datenoperationen sofort unterstützen.
mehr lesen
Es hat sich gezeigt, dass SQL-Abfragen für Einzelknoten-Setups in eine Reihe von Operationen umgewandelt werden können, die mit Tensor-Laufzeiten vergleichbar sind, und dass die Performanz dieser Art der Ausführung vergleichsweise hoch ist. Es ist jedoch noch unklar, ob diese Vorteile auch in einer vernetzten Umgebung zum Tragen kommen.
Da die verteilte Abfrageverarbeitung effiziente schlüsselbasierte Netzwerk-Mischungen, die Überlappung von Netzwerk- und Rechenoperationen sowie die Behandlung von Schräglagen erfordert, ist die Transformation nicht trivial. In diesem Forschungszweig wird untersuche, wie verteilte Abfragen so transformiert werden können, dass sie mit denselben Vorteilen effizient über Tensor-Frameworks ausgeführt werden können.
Das Projekt Code Transformers konzentriert sich auf das Verständnis und die Verbesserung generativer KI-Modelle für Programmcode. Die erstellten fortschrittlichen Code-Modelle können Entwicklern bei ihren Aufgaben helfen, ebenso wie ihren Kollegen im Sinne des Pair Programming. Es reicht nicht aus, kompilierbaren und leicht lesbaren Code zu erzeugen. Er muss auch die vom Entwickler aufgeworfenen Probleme lösen und dabei die Industriestandards auch bei neu eingeführten Projekten und Bibliotheken einhalten. Dies kann erreicht werden, wenn KI-Modelle den Code syntaktisch und semantisch verstehen können.
mehr lesen
Derzeitige Hochleistungsmodelle verfügen über Blackbox-Strukturen, die aus riesigen Datenmengen lernen, die durch das Sammeln von Code in der „freien Wildbahn“ entstanden sind. Solche Datensätze enthalten anfälligen Code oder sogar Malware. Es ist auch erwähnenswert, dass viele dieser Modelle aus diesen Datensätzen lernen, indem sie die Vervollständigung eines bestimmten Codes sequenziell vorhersagen und dabei die reichhaltige Struktur, die er enthält, außer Acht lassen.
Das Projekt Code Transformers zielt darauf ab, effiziente Code-Modelle zu entwickeln, indem zunächst die Tiefe ihres Verständnisses und ihre Grenzen untersucht werden. Anschließend werden anpassbare und modulare Strukturen entworfen, die verschiedene Techniken wie multimodales Training oder neurosymbolisches Lernen nutzen können. Solche Modelle können reichhaltige Metadaten nutzen, die mit dem Code verknüpft sind, sie passen sich den Benutzerpräferenzen an und sind vertrauenswürdiger, da sie Erklärungen für ihre Generationen liefern können.
The research project „Structure and Multimodality for Transformer Networks“ is about dealing with documents such as PDF and XML files (e.g. MS Word). In the past, language understanding systems discarded everything but the plain text when processing a document. The goal of this project is to work directly with raw documents without any preprocessing. This includes considering the different modalities (text, images, tables, charts) as well as their interplay in the form of layout and explicit links.
mehr lesen
To provide some background, let’s dissect the project title word by word. „Multimodality“ means that there are non-text elements present in the document. For example, these can be images, tables or charts. The modalities video and audio are not considered because they are quite rare in business documents. Importantly, multimodality means that the modalities are interleaved and their interplay is complex, i.e. we will go beyond simple pairs of image and corresponding text caption.
The term „structure“ refers to everything which goes beyond text as a plain sequence of characters. Structure can manifest itself via linebreaks in a poem, chapters in a book or columns in a newspaper. Further, „structure“ also describes the relations between text and non-text elements of a document. This can be implicit by the spatial arrangement or explicit via references to tables and charts.
A „Transformer“ is a special kind of Neural Network (i.e. a model that can learn from data) and can be used for analysis and prediction. In the language domain, most recent breakthroughs (i.e. ChatGPT) were mainly due to this architecture. Currently, the vanilla Transformer pushes hardware to the limit as its key component, the so-called self-attention, scales poorly with sequence length. Thus, we also want to look into recent attention-free models, e.g. state space models such as Mamba.
The goal of the project is to provide an easy-to-use Code-Framwork for understanding multimodal content input.
Trotz ihrer weiten Verbreitung haben herkömmliche neuronale Netze mit der Modellierung von Unsicherheiten zu kämpfen und erfordern umfangreiche Trainingsdaten. Diese Einschränkungen können problematisch sein, wenn ihre Vorhersagen beispielsweise verständlich sein müssen. Probabilistische Schaltungen (PC) bieten eine überzeugende Alternative zu neuronalen Netzen.
mehr lesen
Summenproduktnetze (SPNs), ein wichtiges Mitglied der PC-Familie, zeichnen sich durch ihre effiziente Inferenzfähigkeit, die Fähigkeit, mit relativ wenigen Daten und Hyperparametern trainiert zu werden, und ihre Fähigkeit, die Unsicherheit ihrer Vorhersagen zu modellieren, aus. SPNs auf Rechenplattformen wie CPUs, GPUs und FPGAs einzusetzen, stellt jedoch eine Herausforderung dar. Insbesondere passen diese Netze aufgrund ihrer spärlichen Verbindungen und der Konvergenz zu einem einzigen Ausgangsknoten nicht gut zu massiv-parallelen Architekturen.
Dieses Projekt befasst sich mit diesen Problemen durch die Entwicklung eines MLIR-basierten SPNC-Compilers. Der SPNC-Compiler soll die Lücke zwischen fortschrittlichen Hardware-Architekturen und der Zugänglichkeit dieser leistungsstarken Modelle für KI-Praktiker ohne Hardware-Kenntnisse schließen.
Diese Integration maximiert den Nutzen der Hardware und minimiert die notwendige Lernkurve für KI-Forscher und Entwickler. Durch die effiziente Berechnung von SPNs auf spezialisierter Hardware, wie FPGAs und IPUs, eröffnet unser Projekt neue Wege für KI-Anwendungen.
In Kooperation mit der ETH Zürich wird ein Text-to-Musik Diffusion-Model mit 1- 3 millarden parametern trainiert, welches auf Basis von Text-Prompts und Parametern wie Tempo & Schlagworten Musikstücke erzeugt.
Als Basis für das Training des Modells dient ein hochwertiger Teildatensatz des FMA music datasets und des Jamendo royalty-free music dataset.
Im Ergebnis des gemeinsamen Projekts soll das trainierte Modell, sowie die Trainingsdaten unter Open Source Lizenz publiziert werden.
Kooperationspartner: Luca Lanzendörfer, Distributed Computing Group, ETH Zürich
In Kooperation mit Haris Jabbar validieren und evaluieren wir Ein neuartiges Tokenisierungsschema für die englische Sprache, das morphebasierte Segmentierung mit Byte Pair Encoding integriert, um NLP-Modelle zu verbessern.
Das Ziel ist es einen stärker linguistisch ausgerichteter Tokenisierungsmechanismus zu testen, der das Verständnis des Modells für sprachliche Nuancen verbessert und hiermit auch die Leistung des Modells. Gleichzeitig soll er die effizientere Handhabung von Sprachen mit reichhaltigen Morphologie (im Vergleich zu Methoden, die sich nur auf statistische Analysen stützen) unterstüzten.