Recheninfrastruktur

Das KI Servicezentrum bietet eine für Hessen einzigartige High-Performance-Computing (HPC) Recheninfrastruktur zum Trainieren und Entwickeln von KI-Modellen an. Neben einer stufenlosen Skalierbarkeit der Rechenleistung auf bis zu 632 A100-GPUs bietet das Rechencluster zusätzliche Non-Mainstream-Hardware zur Forschung & Entwicklung spezialisierter KI-Lösungen. So sind in das HPC-Cluster 4 Graphcore bow-200 Nodes und ein Nvidia Developer Toolkit eingebunden.

Gleichzeitig wird unser Rechencluster kontinuierliche weiter ausgebaut, um auch zukünftig die Souveränität von Deutschland als Standort für künstliche Intelligenz sicherzustellen und zu stärken.

Auf diese Weise können auch große Modell trainiert und im Rahmen unserer Services effiziente Proof of Concepts und auch größere Projekte direkt vor Ort realisiert werden.

Maschine Learning Development Environment

Unser Cluster bietet eine einzigartige Oberfläche für das Trainieren und Evaluieren von KI Modellen. Das Machine Learning Development Environment von HPE bietet eine standardisierte Schnittstelle mit WebGUI und Command-Line-Interface zur einfachen Integration unseres Clusters in Ihre Entwicklungsprozesse. Hierbei reduziert MLDE die Komplexität des Trainierens, erlaubt ein stufenloses Skalieren des Experiments auf bis zu 632 GPUs und eine einfache Zusammenarbeit von räumlich verteilten Teams ohne große Adaptionen im Modellcode. Für einen ersten Einblick in unsere Entwicklungsumgebung schauen Sie sich unser OnBoarding Video an.

Dokumentation & Wissensbasis

Im nachfolgenden finden Sie eine Sammlung der wichtigsten Information zur effizienten Nutzung und eigenständigen Fehlerbehebung auf unserer Recheninfrastruktur, sowie einen Link zu unserem Service Portal für tiefergehende Detailfragen.

Zugriff auf das Cluster

Wer kann einen Antrag auf Nutzung unserer Rechenleistung stellen?

Die Nutzung unserer Leistungen steht allen Firmen und Institutionen offen, lediglich Privatpersonen kann die Nutzung leider nicht angeboten werden. Hierbei ist eine Nutzung sowohl im Rahmen einer Proof of Concept Sprints als auch über eine kooperatives kleines, mittleres oder großes Projekt möglich.


Wie kann ein Antrag zur Nutzung von Rechenleistung gestellt werden?

Der Antrag auf Nutzung von Rechenleistung kann unter diesem Link eingereicht werden. Bitte wählen Sie den Antrag „Apply for HPC Cluster“.


Welche Voraussetzungen gibt es für einen erfolgreichen Projektantrag?

Für die erfolgreiche Bewerbung eines kleinen Projekts sind lediglich eine ausgereifte Projektbeschreibung mit wissenschaftlichem Mehrwert und ein entsprechendes Projektteam erforderlich. Bei mittleren und großen Projekten hingegen sind ein vorherige Proof of Concept und / oder entsprechende vorhergehende Untersuchungen / Publikationen erforderlich.


Gibt es eine Begrenzung bei der Nutzung der Rechenleistung?

Im Rahmen des Antrags auf Nutzung von Rechenleistung geben Sie die Anzahl an benötigten GPUs und die erwartete Projektlaufzeit an. Über diesen Antrag wird in einem Gremium aus 3 Professoren und 2 technischen Ansprechpartnern entschieden. Eine Begrenzung der maximal zuteilbaren GPUs gibt es nur in Form der Hardwareverfügbarkeit, allerdings ist die maximale Projektlaufzeit auf 12 Monate begrenzt.


Nutzung des Clusters

Wie kann ich das Cluster nutzen und dort Modelle trainieren?

In unserem Onboarding Video erklären wir detailliert die ersten Schritte zur Nutzung unseres Cluster. Tiefergehende Informationen finden Sie in unserer Wissensdatenbank und weiter unten im Bereich “Machine Learning Development Environment”.

Hinweis: Mit der Genehmigung Ihres Antrags und dem Anlegen Ihres Nutzers auf unserem Cluster erhalten Sie Zugriff auf unsere Wissensdatenbank. Der Zugriff ist lediglich für aktive Clusternutzer möglich.


Nutzungs- und Gebührenordnung

Informationen folgen…


Machine Learning Development Environment

Gibt es eine Sammlung von Best Practices?

Eine Sammlung an Tutorials, Best Practices und Beispielen kann in unserer Wissensdatenbank eingesehen werden.

Hinweis: Mit der Genehmigung Ihres Antrags und dem Anlegen Ihres Nutzers auf unserem Cluster erhalten Sie Zugriff auf unsere Wissensdatenbank. Der Zugriff ist lediglich für aktive Clusternutzer möglich.


Wie kann ich Experimente und JupiterLabs auf dem Cluster starten?

Die Grundlage und Schnittstelle zur Clusternutzung bietet unser Machine Learning Development Environment von Determined.ai. Diese Plattform bietet eine Vielzahl von Funktionen und Möglichkeiten des Trainings und ermöglicht ein nahezu stufenloses Skalieren von KI Modellen.

Eine detaillierte Dokumentation der Schnittstellen und Funktionen kann unter https://docs.determined.ai/latest/ gefunden werden.


Was mache ich, wenn ich Fragen habe, oder etwas nicht funktioniert?

Im Fall von Fragen, Problemen und Unklarheiten bietet unserer Serviceportal eine zentralisierte Schnittstelle für die Beantwortung Eurer Fragen und die Unterstützung durch unsere Experten.

Unser Serviceportal finden Sie unter: https://hessian-ai.atlassian.net/servicedesk/customer/portal/3

Hinweis: Mit der Genehmigung Ihres Antrags und dem Anlegen Ihres Nutzers auf unserem Cluster erhalten Sie Zugriff auf unsere Wissensdatenbank. Der Zugriff ist lediglich für aktive Clusternutzer möglich.