Recheninfrastruktur

Das KI Servicezentrum bietet eine für Hessen einzigartige High-Performance-Computing (HPC) Recheninfrastruktur zum Trainieren und Entwickeln von KI-Modellen an. Neben einer stufenlosen Skalierbarkeit der Rechenleistung auf bis zu 632 A100-GPUs bietet das Rechencluster zusätzliche Non-Mainstream-Hardware zur Forschung & Entwicklung spezialisierter KI-Lösungen. So sind in das HPC-Cluster 4 Graphcore bow-200 Nodes und ein Nvidia Developer Toolkit eingebunden.

Gleichzeitig wird unser Rechencluster kontinuierlich weiter ausgebaut, um die Souveränität von Deutschland als Standort für künstliche Intelligenz auch zukünftig sicherzustellen und zu stärken.

Auf diese Weise können auch große Modelle trainiert und – im Rahmen unserer Services – effiziente Proof of Concepts sowie größere Projekte direkt vor Ort realisiert werden. 

42_Cluster
HPC Cluster mit 632 A100-80GB-SMX GPU

HPC Cluster with 79 Apollo 6500 server, each with

2x AMD EPYC 7313 3.0GHz 16-core
8x NVIDIA HGX A100 80GB GPU with NV-Link (SMX Card)
32x HPE 64GB Dual Rank x4 DDR4-3200 (= 2.048 GB)

HPC Graphcore Knot with

2x AMD EPYC 7713 2.0GHz 64-core
4x Graphcore bow-2000 Nodes
16x HPE 32GB Dual Rank x4 DDR4-3200 (= 512 GB)

Parallel File Storage System with

1.251 TB of usable capacity
192 GB/s read, and 152,3 GB/s write

Machine Learning Development Environment

Unser Cluster bietet eine einzigartige Oberfläche für das Trainieren und Evaluieren von KI-Modellen. Das Machine Learning Development Environment von HPE bietet eine standardisierte Schnittstelle mit WebGUI und Command-Line-Interface zur einfachen Integration unseres Clusters in Ihre Entwicklungsprozesse. Hierbei reduziert MLDE die Komplexität des Trainierens, erlaubt ein stufenloses Skalieren des Experiments auf bis zu 632 GPUs und eine einfache Zusammenarbeit von räumlich verteilten Teams ohne große Adaptionen im Modellcode. Für einen ersten Einblick in unsere Entwicklungsumgebung schauen Sie sich unser Onboarding Video an.

Dokumentation & Wissensbasis

Im Nachfolgenden finden Sie die wichtigsten Informationen zur effizienten Nutzung und eigenständigen Fehlerbehebung auf unserer Recheninfrastruktur. Für tiefergehende Fragen nutzen Sie bitte den Link zu unserem Serviceportal.

Zugriff auf das Cluster

Wer kann einen Antrag auf Nutzung unserer Rechenleistung stellen?

Die Nutzung unserer Leistungen steht allen Firmen und Institutionen offen, lediglich Privatpersonen kann die Nutzung leider nicht angeboten werden. Hierbei ist eine Nutzung sowohl im Rahmen eines Proof of Concept Sprints als auch über ein kooperatives kleines, mittleres oder großes Projekt möglich.

Wie kann ein Antrag zur Nutzung von Rechenleistung gestellt werden?

Der Antrag auf Nutzung von Rechenleistung kann unter diesem Link eingereicht werden. Bitte wählen Sie den Antrag „Apply for HPC Cluster“.

Was sind die Voraussetzungen für einen erfolgreichen Projektantrag?

Für die erfolgreiche Bewerbung eines kleinen Projekts sind lediglich eine ausgereifte Projektbeschreibung mit wissenschaftlichem Mehrwert und ein entsprechendes Projektteam erforderlich. Bei mittleren und großen Projekten hingegen sind ein vorheriges Proof of Concept und / oder entsprechende vorhergehende Untersuchungen / Publikationen erforderlich.

Gibt es eine Begrenzung bei der Nutzung der Rechenleistung?

Im Rahmen des Antrags auf Nutzung von Rechenleistung geben Sie bitte die Anzahl an benötigten GPUs und die erwartete Projektlaufzeit an. Über diesen Antrag wird in einem Gremium aus drei Professoren und zwei technischen Ansprechpartnern entschieden. Eine Begrenzung der maximal zuteilbaren GPUs gibt es nur in Form der Hardwareverfügbarkeit, allerdings ist die maximale Projektlaufzeit auf 12 Monate begrenzt.

Nutzung des Clusters

Wie kann ich das Cluster nutzen und dort Modelle trainieren?

In unserem Onboarding Video erklären wir detailliert die ersten Schritte zur Nutzung unseres Clusters. Tiefergehende Informationen finden Sie in unserer Wissensdatenbank und weiter unten im Bereich “Machine Learning Development Environment”.

Hinweis: Mit der Genehmigung Ihres Antrags und dem Anlegen Ihres Nutzer-Accounts auf unserem Cluster erhalten Sie Zugriff auf unsere Wissensdatenbank. Der Zugriff ist lediglich für aktive Clusternutzer möglich.

Nutzungs- und Gebührenordnung

Informationen folgen…

Machine Learning Development Environment

Gibt es eine Sammlung von Best Practices?

Eine Sammlung an Tutorials, Best Practices und Beispielen kann in unserer Wissensdatenbank eingesehen werden.

Wie kann ich Experimente und JupiterLabs auf dem Cluster starten?

Die Grundlage und Schnittstelle zur Clusternutzung bietet unser Machine Learning Development Environment von Determined.ai. Diese Plattform bietet eine Vielzahl von Funktionen und Möglichkeiten des Trainings und ermöglicht ein nahezu stufenloses Skalieren von KI-Modellen.

Eine detaillierte Dokumentation der Schnittstellen und Funktionen kann unter https://docs.determined.ai/latest/ gefunden werden.

Was mache ich, wenn ich Fragen hab, oder etwas nicht funktioniert?

Im Fall von Fragen, Problemen und Unklarheiten bietet unser Serviceportal eine zentralisierte Schnittstelle für die Beantwortung Ihrer Fragen und die Unterstützung durch unsere Experten.

Unser Serviceportal finden Sie unter: https://hessian-ai.atlassian.net/servicedesk/customer/portal/3

Recheninfrastruktur

42_ClusterHPC Cluster mit 632 A100-80GB-SMX GPU

HPC Cluster with 79 Apollo 6500 server, each with

HPC Graphcore Knot with

Parallel File Storage System with

Machine Learning Development Environment

Dokumentation & Wissensbasis

Zugriff auf das Cluster

Wer kann einen Antrag auf Nutzung unserer Rechenleistung stellen?

Wie kann ein Antrag zur Nutzung von Rechenleistung gestellt werden?

Was sind die Voraussetzungen für einen erfolgreichen Projektantrag?

Gibt es eine Begrenzung bei der Nutzung der Rechenleistung?

Nutzung des Clusters

Wie kann ich das Cluster nutzen und dort Modelle trainieren?

Nutzungs- und Gebührenordnung

Machine Learning Development Environment

Gibt es eine Sammlung von Best Practices?

Wie kann ich Experimente und JupiterLabs auf dem Cluster starten?

Was mache ich, wenn ich Fragen hab, oder etwas nicht funktioniert?

42_Cluster
HPC Cluster mit 632 A100-80GB-SMX GPU