Architekturen für längere Sequenzen und effiziente Inferenz: StripedHyena

Den Weg zu effizienten Architekturen ebnen: StripedHyena-7B, Open-Source-Modelle, die einen Einblick in eine Welt jenseits der Transformers bieten

Einer der Schwerpunkte von hessian.AI ist es, mit Partnern neue Architekturen für Deep Learning und generative KI zu entwickeln. Gemeinsam mit together.ai, haben wir die StripedHyena-Modellreihe trainiert und realisiert. Diese Version enthält insbesondere den StripedHyena-Hessian-7B (SH 7B), ein Basismodell:

  • SH 7B ist mit den besten Open-Source-Transformatoren in Kurz- und Langzeitkontextbewertungen konkurrenzfähig. Dasselbe Modell schneidet besser ab als LLAMA-2 13B (doppelt so groß) bei OpenLLM-Leaderboard-Aufgaben und Mistral 7B bei der Zusammenfassung von langen Kontexten.
  • SH 7B ist schneller und speichereffizienter für langes Sequenztraining, Feinabstimmung und Generierung. Neben der Aufmerksamkeit ist ein zentrales Rechenelement des Modells eine Zustandsraummodell-Schicht (SSM), die auf Pionierarbeiten wie S4 (Gu el al.) aufbaut und ein effizientes Training mit Faltung und eine effiziente Inferenz mit einer Rekursion ermöglicht. Unter Verwendung unserer neuesten schnellen Kernel für Gated Convolutions und einer effizienten Hyena-Inferenz ist SH 7B mehr als 10 %, 20 % und 50 % schneller beim End-to-End-Training für Sequenzen der Länge 32k, 64k und 131k im Vergleich zu einer optimierten Transformer-Baseline mit FlashAttention v2 und benutzerdefinierten Kerneln. SH 7B-Caches für die autoregressive Generierung sind 50 % kleiner als ein gleich großer Transformer, der gruppierte Abfragen verwendet.
  • SH 7B wurde auf der Grundlage unserer neuesten Forschungsergebnisse zu den Skalierungsgesetzen effizienter Architekturen entwickelt. Insbesondere SH 7B ist eine hybride Architektur mit Aufmerksamkeits- und Gated Convolutions. Mittels eines rechenoptimalen Skalierungsprotokolls stellen wir fest, dass StripedHyena-Hybride die rechenoptimalen Skalierungsgesetze für Transformers (Chinchilla) verbessern und bei jedem Rechenbudget qualitativ hochwertigere Modelle als Transformers liefern. Mit unseren akademischen Partnern haben wir Theorien und synthetische Aufgaben entwickelt, um zu verstehen, wie und warum dies geschieht.
  • SH 7B wird durch eine Reihe neuer Modellveredelungstechniken optimiert, die es uns ermöglichen, die Modellarchitektur während des Trainings oder nach einer Vorübungsphase zu ändern. SH 7B wurde durch die Verschmelzung von Komponenten von Mistral und Hyena gewonnen und auf einer Mischung aus (buchlosen) RedPajama- und Langkontextdaten trainiert.
© together.ai

Wir freuen uns darauf, die Grenzen von Modellarchitekturen für schnelles Training und Inferenz weiter zu verschieben. Die Verbesserung der Rate (Qualitätsgewinn pro Recheneinheit – FLOP) ermöglicht es uns, für jedes Rechenbudget qualitativ hochwertigere Basismodelle zu erhalten. Mit StripedHyena-Modellen sind wir in der Lage, die gleiche Pretraining-Leistung wie eine starke Transformer-Architektur (LLaMA) mit weniger FLOPS zu erreichen. Mit der Modellfusion eröffnen wir neue Möglichkeiten der iterativen Modellbildung und Architekturoptimierung.