Amazon SageMaker HyperPod – Kunden
Führende KI-Startups und Organisationen aller Größen trainieren und implementieren Basismodelle in großem Maßstab auf SageMaker HyperPod
-
Hugging Face
Hugging Face hat SageMaker HyperPod verwendet, um wichtige neue Open-Foundation-Modelle wie StarCoder, IDEFICS und Zephyr zu entwickeln, die millionenfach heruntergeladen wurden. Die speziell entwickelten Resilienz- und Leistungsfunktionen von SageMaker HyperPod haben es unserem Open-Science-Team ermöglicht, sich auf Innovationen und die Veröffentlichung wichtiger Verbesserungen bei der Erstellung von Basismodellen zu konzentrieren, anstatt die Infrastruktur zu verwalten. Besonders gut hat uns gefallen, wie SageMaker HyperPod in der Lage ist, ML-Hardwarefehler zu erkennen und die defekte Hardware schnell auszutauschen, ohne das laufende Modelltraining zu unterbrechen. Da unsere Teams schnell innovativ sein müssen, half uns dieses automatische Feature zur Wiederherstellung von Arbeitsplätzen dabei, Unterbrechungen während des Trainingsprozesses des Basismodells zu minimieren, sodass wir in nur einem Jahr Hunderte von Stunden an Trainingszeit einsparen konnten.
Jeff Boudier, Head of Product – Hugging Face -
Perplexity AI
Wir waren auf der Suche nach der richtigen ML-Infrastruktur, um die Produktivität zu steigern und die Kosten zu senken, um leistungsstarke große Sprachmodelle zu erstellen. Nach einigen erfolgreichen Experimenten wechselten wir von anderen Cloud-Anbietern zu AWS, um Amazon SageMaker HyperPod zu verwenden. Wir verwenden HyperPod seit vier Monaten, um die LLMs zu erstellen und zu optimieren, um die Perplexity Conversational Answer Engine zu unterstützen, die Fragen zusammen mit Referenzen beantwortet, die in Form von Zitaten bereitgestellt werden. Da SageMaker HyperPod den Cluster-Zustand automatisch überwacht und GPU-Ausfälle behebt, können sich unsere Entwickler auf die Modellerstellung konzentrieren, anstatt Zeit mit der Verwaltung und Optimierung der zugrundeliegenden Infrastruktur zu verbringen. Die integrierten Daten- und Modellbibliotheken von SageMaker HyperPod halfen uns, die Trainingszeit auf GPUs zu optimieren und den Trainingsdurchsatz zu verdoppeln. Dadurch können unsere Trainingsexperimente jetzt doppelt so schnell ablaufen, wodurch unsere Entwickler schneller iterieren können. Das beschleunigt die Entwicklung neuer generativer KI-Erlebnisse für unsere Kunden.
Aravind Srinivas, Mitbegründer und CEO von Perplexity AI -
Articul8 AI
Die Aufgabenverwaltung von Amazon SageMaker HyperPod trägt dazu bei, die GPU-Auslastung über verschiedene Teams und Projekte hinweg zu maximieren. Als schnell wachsendes GenAI-Startup optimiert Articul8 AI seine Rechenumgebung ständig, um beschleunigte Rechenressourcen so effizient wie möglich zuzuweisen. Durch die automatisierte Aufgabenpriorisierung und Ressourcenzuweisung in SageMaker HyperPod konnte die GPU-Auslastung erheblich verbessert werden, wodurch Leerlaufzeiten reduziert und der Modellentwicklungsprozess durch die Optimierung von Aufgaben, die vom Training über die Optimierung bis hin zur Inferenz reichen, beschleunigt werden konnte. Die Möglichkeit, Ressourcen automatisch auf Aufgaben mit hoher Priorität zu verlagern, hat die Produktivität des Teams erhöht und es ermöglicht, neue GenAI-Innovationen schneller als je zuvor auf den Markt zu bringen.
Amazon SageMaker HyperPod hat uns enorm dabei geholfen, unsere Datenverarbeitungsressourcen mit minimalen Ausfallzeiten effizienter zu verwalten und zu betreiben. Wir haben den Slurm-basierten HyperPod-Service schon früh eingeführt und von seinen benutzerfreundlichen und robusten Features profitiert, was zu einer Produktivitätssteigerung von bis zu 35 % und einer schnellen Skalierung unseres GenKI-Betriebs geführt hat. Als Kubernetes-Unternehmen freuen wir uns nun sehr, die Einführung der Amazon-EKS-Unterstützung für SageMaker HyperPod begrüßen zu dürfen. Dies ist ein entscheidender Faktor für uns, da es sich nahtlos in unsere bestehenden Trainingspipelines integrieren lässt und es uns noch einfacher macht, unsere großen Kubernetes-Cluster zu verwalten und zu betreiben. Darüber hinaus hilft dies auch unseren Endkunden, da wir nun in der Lage sind, diese Funktionen in unserer GenKI-Plattform zu bündeln und zu produzieren, sodass unsere Kunden ihre eigenen Trainings- und Feinabstimmungs-Workloads effizienter ausführen können.
Arun Subramaniyan, Gründer und CEO von Articul8 AI -
Thomson Reuters
Thomson Reuters, ein globales KI- und inhaltsorientiertes Technologieunternehmen, hat die Task-Governance-Fähigkeit in Amazon SageMaker HyperPod getestet, um eine zentrale Herausforderung im Zusammenhang mit der Priorisierung von Workloads zu bewältigen. Mit Task Governance können sie nun Kunden-Workloads wie Inferenzanfragen neben ihren eigenen laufenden Modellentwicklungsprojekten verwalten und so sicherstellen, dass dringende Kundenanfragen priorisiert werden, ohne die interne Forschung zu unterbrechen, was zu einer besseren Ressourcennutzung und Kundenzufriedenheit führt. „Mit Amazon SageMaker HyperPod konnten wir unsere Anforderungen für das Training großer Sprachmodelle erfüllen“, so John Duprey, Distinguished Engineer bei Thomson Reuters Labs. „Mithilfe von Amazon EKS in SageMaker HyperPod waren wir in der Lage, die Kapazität hochzuskalieren und Trainingsaufträge problemlos auszuführen. So konnten wir die Vorteile von großen Sprachmodellen (LLMs) in Bereichen wie der rechtlichen Zusammenfassung und Klassifizierung nutzen.“
Thomson Reuters steht seit über 30 Jahren an der Spitze der KI-Entwicklung, und wir setzen uns dafür ein, aussagekräftige Lösungen anzubieten, die unseren Kunden helfen, schneller Ergebnisse zu erzielen und einen besseren Zugang zu vertrauenswürdigen Informationen zu erhalten. Um unsere Innovationen im Bereich der generativen KI zu beschleunigen, arbeiten wir nicht nur mit LLM-Anbietern zusammen, sondern untersuchen auch, wie benutzerdefinierte Modelle mithilfe unserer einzigartigen und firmeneigenen Inhalte und unseres menschlichen Fachwissens effizienter trainiert werden können. Die verteilten Trainingsbibliotheken von SageMaker HyperPod helfen uns, die Leistung beim Training großer Modelle zu verbessern. Und das Resilienzfeature spart Zeit bei der Überwachung und Verwaltung der Infrastruktur. Das Training unserer Basismodelle auf SageMaker HyperPod wird unsere Markteinführung beschleunigen und uns helfen, unseren Kunden schnell hochwertige Lösungen anzubieten.
Joel Hron, Head of AI and Labs bei Thomson Reuters, und John Duprey, Distinguished Engineer bei Thomson Reuters Labs -
Stability AI
Als führendes Open-Source-Unternehmen für generative KI ist es unser Ziel, die Zugänglichkeit moderner KI zu maximieren. Wir erstellen Grundlagenmodelle mit zig Milliarden von Parametern, für die eine Infrastruktur erforderlich ist, die eine optimierte Trainingsleistung skalieren kann. Mit der verwalteten Infrastruktur und den Optimierungsbibliotheken von SageMaker HyperPod können wir die Trainingszeit und -kosten um über 50% reduzieren. Dadurch wird unser Modelltraining widerstandsfähiger und leistungsfähiger, sodass hochmoderne Modelle schneller erstellt werden können.
Emad Mostaque, Gründer und CEO, Stability AI -
Recursal AI
Der gesamte Prozess wurde optimiert. Mit SageMaker HyperPod können wir die Vorteile der Cluster-Resilienzfeatures nutzen, die Trainingsaufträge vom zuletzt gespeicherten Checkpoint identifizieren und im Falle eines Hardwarefehlers automatisch wiederherstellen. Wir führen sehr unterschiedliche Workloads aus – von der Anwendung über die Inferenz bis hin zum Training – mit Kubernetes als dem roten Faden. Für uns funktioniert Amazon EKS mit SageMaker HyperPod einfach: Die Knoten fallen einfach in unseren Cluster.
Nathan Wilce, Infrastructure/data lead, Recursal -
Hippocratic AI
Hippocratic AI, ein KI-Unternehmen, das das erste sicherheitsorientierte große Sprachmodell (LLM) für das Gesundheitswesen entwickelt. Um sein primäres LLM und die Supervisor-Modelle zu trainieren, benötigte Hippocratic AI leistungsstarke Rechenressourcen, die sehr gefragt und schwer zu bekommen waren. Die flexiblen Trainingspläne von Amazon SageMaker HyperPod erleichterten es ihnen, auf Amazon Elastic Compute Cloud (Amazon EC2) P5 Instances zuzugreifen. HippocraticAI nutzt auch AWS-Services wie Grafana, um wichtige GPU-Nutzungsmetriken zu verfolgen. Durch die Nutzung von Amazon-EC2-P5-Instances hat Hippocratic AI die Geschwindigkeit des Modelltrainings vervierfacht und seine Lösung so skaliert, dass sie Hunderte von Anwendungsfällen abdeckt. Es half ihnen, die erforderlichen Rechenressourcen zu sichern und Modelle schnell zu trainieren.
-
NinjaTech
NinjaTech AI, ein Unternehmen für generative KI, das einen All-in-One-SuperAgent für unbegrenzte Produktivität anbietet, nutzte die flexiblen Trainingspläne von Amazon SageMaker HyperPod, um verschiedene interne Modelle, darunter das Modell Llama 3.1 405B, schneller zu optimieren, die Kosten für das Modelltraining zu senken und den Prozess zu automatisieren. Das Unternehmen möchte seinen Benutzern, die auf verschiedene KI-Agenten zugreifen möchten, die ihre SuperAgent-Technologie antreiben, ein nahtloses Erlebnis bieten. Um dies zu erreichen, benötigten sie ein Modell, das automatisch die Absicht des Benutzers vorhersagen und bestimmen konnte, welcher KI-Agent dafür geeignet wäre. Dieser Mechanismus erforderte häufige Aktualisierungen des Modells, indem Kundenfeedback und neue Features schrittweise integriert wurden, wobei bei jeder Runde der LoRA-Optimierung 10 bis 100 Millionen Token verwendet wurden. Für ein Startup ist die Beschaffung und der Betrieb von Hochleistungs-Rechenressourcen aufgrund der hohen Kosten und Bandbreitenprobleme eine Herausforderung, insbesondere in Clustern mit mehreren Knoten, die neben beschleunigter Datenverarbeitung auch ein schnelles Netzwerk und schnellen Speicher erfordern. Darüber hinaus ist der Trainingsprozess zeitaufwendig und umfasst Schritte wie das Herunterladen des Modells, verteiltes Training, Checkpoint, Überwachung, automatische Fehlerbehebung, Zusammenführung und Quantisierung. Die flexiblen Trainingspläne von HyperPod ermöglichten es dem Unternehmen, bereits vor dem Trainingslauf zuverlässige und erschwingliche Rechenleistung zu erhalten, die den spezifischen Rechen- und Zeitanforderungen entsprach und gleichzeitig ein effizientes Modelltraining sicherstellte.
-
OpenBabylon
Entwickler und Datenwissenschaftler bei OpenBabylon, einem KI-Unternehmen, das große Sprachmodelle für unterrepräsentierte Sprachen anpasst, nutzen seit einigen Monaten die flexiblen Trainingspläne von SageMaker HyperPod, um auf GPU-Ressourcen zuzugreifen und Experimente in großem Maßstab durchzuführen. Mit den verteilten Trainingsfunktionen des SageMaker HyperPod mit mehreren Knoten führten sie 100 groß angelegte Modelltrainingsexperimente durch und erzielten bei der Übersetzung vom Englischen ins Ukrainische Ergebnisse auf dem neuesten Stand der Technik. Dieser Durchbruch wurde zeit- und kosteneffizient erreicht und zeigt, dass SageMaker HyperPod in der Lage ist, komplexe Projekte erfolgreich und im Rahmen des Zeit- und Budgetrahmens durchzuführen.
-
Salesforce
Forscher bei Salesforce suchten nach Möglichkeiten, schnell mit dem grundlegenden Modelltraining und der Optimierung zu beginnen, ohne sich um die Infrastruktur kümmern oder wochenlang ihren Trainings-Stack für jedes neue Modell optimieren zu müssen. Mit Amazon SageMaker HyperPod-Rezepten können Forscher bei Salesforce Rapid Prototyping durchführen, wenn sie FMs anpassen. Jetzt können die KI-Forschungsteams von Salesforce innerhalb weniger Minuten mit einer Vielzahl von Rezepten für das Vortraining und das Optimieren beginnen und Grenzmodelle mit hoher Leistung operationalisieren.
Amazon SageMaker HyperPod – Partner
Innovationen fördern und den Geschäftswert mit AWS-Partnern steigern, die über fundiertes technisches Wissen und nachgewiesenen Kundenerfolg verfügen
-
Accenture
Wir erweitern unsere Partnerschaft mit AWS als Einführungspartner für die Governance von Amazon-SageMaker-HyperPod-Aufgaben. Unsere Zusammenarbeit mit AWS ermöglicht es uns, Kunden zu den neuesten technologischen Durchbrüchen zu führen und gleichzeitig dazu beizutragen, die Kosten für generative KI-Anwendungen zu senken. Durch die Zusammenführung zentralisierter Governance-Funktionen in SageMaker HyperPod und unserer Erfahrung mit generativen KI-Projekten können wir Unternehmen dabei helfen, den Wert generativer KI noch schneller zu erkennen, das Kundenerlebnis zu verbessern und die Investitionsrendite zu erhöhen.
Jennifer Jackson, Global Lead for Accenture AWS Business Group & Senior Managing Director -
Slalom
Wir freuen uns sehr, mit AWS als Einführungspartner für die Governance von Amazon-SageMaker-HyperPod-Aufgaben zusammenzuarbeiten. In Zusammenarbeit mit AWS können wir unseren Kunden nun helfen, die neuesten technologischen Fortschritte schnell zu übernehmen und die Kosten ihrer generativen KI-Anwendungen zu senken. Durch die Zusammenführung zentralisierter Governance-Funktionen in SageMaker HyperPod mit der umfassenden KI- und Cloud-Erfahrung von Slalom können wir außergewöhnliche Kundenerlebnisse bieten und gleichzeitig eine höhere Investitionsrendite erzielen.
Jeff Kempiners, Managing Director von Slalom’s Amazon Center of Excellence (CoE) -
Rackspace Technology
Wir freuen uns, mit AWS als Einführungspartner für die SageMaker-HyperPod-Aufgaben-Governance zusammenzuarbeiten. Gemeinsam können wir unseren Kunden helfen, die Kosten generativer KI-Anwendungen zu senken und gleichzeitig mit den neuesten technologischen Fortschritten Schritt zu halten. Durch die Kombination der zentralisierten Governance-Funktionen von SageMaker HyperPod mit der umfassenden KI- und Cloud-Expertise von Rackspace können wir das Kundenerlebnis transformieren und gleichzeitig ihre Kapitalrendite verbessern.
Srini Koushik, President, AI, Technology and Sustainability bei Rackspace Technology