Amazon-EC2-Kapazitätsblöcke für ML

Reservieren Sie beschleunigte Instances für Rechenoperationen in Amazon EC2 UltraClusters, um Ihre ML-Workloads auszuführen

Erste Schritte mit EC2-Kapazitätsblöcken

Vertrieb kontaktieren

Warum EC2-Kapazitätsblöcke für ML?

Mit Kapazitätsblöcken für ML von Amazon Elastic Compute Cloud (Amazon EC2) können Sie beschleunigte Computing-Instances ganz einfach für ein zukünftiges Startdatum reservieren. Kapazitätsblöcke unterstützen Instances vom Typ Amazon EC2 P5en, P5e, P5 und P4d, die mit den neuesten GPUs von NVIDIA-H200-Tensor-Core, GPUs von NVIDIA-H100-Tensor-Core bzw. GPUs von NVIDIA-A100-Tensor-Core betrieben werden, sowie Trn2- und Trn1-Instances, die mit AWS Trainium betrieben werden. EC2-Kapazitätsblöcke befinden sich in Amazon-EC2-UltraClustern, die für leistungsstarke Machine-Learning-Workloads (ML) konzipiert sind. Sie können beschleunigte Computing-Instances für bis zu sechs Monate in Clustergrößen von einer bis 64 Instances (512 GPUs oder 1024 Trainium-Chips) reservieren, sodass Sie eine Vielfalt von ML-Workloads flexibel ausführen können. EC2-Kapazitätsblöcke können bis zu acht Wochen im Voraus reserviert werden.

Vorteile

Mit Zuversicht planen

Planen Sie Ihre ML-Entwicklung mit Zuversicht, indem Sie sicherstellen, dass die Kapazität für beschleunigte Computing-Instances auch in Zukunft verfügbar ist.

Netzwerkkonnektivität mit niedriger Latenz und hohem Durchsatz

Holen Sie sich Netzwerkkonnektivität mit niedriger Latenz und hohem Durchsatz durch Co-Location in Amazon-EC2-UltraClustern für verteiltes Training.

Hohe Leistung

Erhalten Sie vorhersehbaren Zugriff auf beschleunigte Computing-Instances mit der höchsten Leistung in Amazon EC2 für Machine Learning.

Anwendungsfälle

Trainieren oder optimieren Sie ML-Modelle mithilfe beschleunigter Computing-Instances

Erhalten Sie ununterbrochenen Zugriff auf die beschleunigten Computing-Instances, die Sie für das ML-Modelltraining und die Feinabstimmung reservieren.

Erhalten Sie beschleunigte Computing-Instances für die Zeit, die Sie für Ihre Experimente benötigen

Führen Sie Experimente durch und erstellen Sie Prototypen, die für kurze Zeiträume beschleunigte Computing-Instances erfordern.

Für zukünftige Nachfragesteigerungen bei ML-Anwendungen planen

Erfüllen Sie Ihre Wachstumsanforderungen, indem Sie die richtige Menge an Kapazität reservieren, um Ihre Kunden zu bedienen.

NVIDIA

Die Nachfrage nach beschleunigter Datenverarbeitung wächst exponentiell, da Unternehmen auf der ganzen Welt generative KI einsetzen, um ihr Geschäft neu zu gestalten. Mit den neuen EC2-Kapazitätsblöcken für ML von AWS können KI-Unternehmen auf der ganzen Welt H100 jetzt nicht nur als einen Server nach dem anderen mieten, sondern in einem speziellen Umfang, der nur bei AWS verfügbar ist. So können sie schnell und kostengünstig große Sprachmodelle trainieren und Inferenzen in der Cloud genau dann ausführen, wenn sie sie benötigen.

Ian Buck, Vice President of Hyperscale and HPC Computing, NVIDIA
Arcee

Arcee bietet eine KI-Plattform, die die Entwicklung und den Fortschritt dessen ermöglicht, was wir als SLMs bezeichnen – kleine, spezialisierte, sichere und skalierbare Sprachmodelle. Amazon-EC2-Kapazitätsblöcke für ML sind ein wichtiger Bestandteil unserer ML-Rechenlandschaft für das Training von SLMs in AWS, da sie uns einen zuverlässigen Zugriff auf GPU-Kapazität bieten, wenn wir sie benötigen. Dies wiederum bedeutet, dass sowohl unser internes Team als auch unsere Kunden von Flexibilität profitieren. Zu wissen, dass wir innerhalb weniger Tage und ohne eine langfristige Verpflichtung einen GPU-Cluster erhalten können, hat für uns wegweisend gewirkt.

Mark McQuade, CEO & Co-Founder, Arcee
Amplify Partners

Wir haben mit mehreren Gründern zusammengearbeitet, die Deep Learning und große Sprachmodelle nutzen, um bahnbrechende Innovationen auf den Markt zu bringen. Wir glauben, dass ein vorhersehbarer und zeitnaher Zugriff auf GPU-Rechenkapazitäten von grundlegender Bedeutung ist, um es Gründern zu ermöglichen, ihre Ideen nicht nur schnell zum Leben zu erwecken, sondern auch ihre Vision weiter umzusetzen und ihren Kunden einen Mehrwert zu bieten. Die Verfügbarkeit von bis zu 512 NVIDIA-H100-GPUs über EC2-Kapazitätsblöcke ist ein entscheidender Faktor in der aktuellen Umgebung mit eingeschränktem Angebot, da wir davon ausgehen, dass Startups dadurch die GPU-Rechenkapazität erhalten, die sie benötigen, wenn sie sie benötigen, ohne langfristige Kapitalzusagen eingehen zu müssen. Wir freuen uns darauf, Gründer zu unterstützen, die auf AWS aufbauen, indem wir GPU-Kapazitätsblöcke und das branchenführende Portfolio an Machine-Learning- und generativen KI-Services nutzen.

Mark LaRosa, Operating Partner, Amplify Partners
Canva

Heute ermöglicht Canva mehr als 150 Millionen aktiven Nutzern pro Monat, ansprechende visuelle Inhalte zu erstellen, die überall veröffentlicht werden können. Wir haben EC2-P4de-Instances verwendet, um multimodale Modelle zu trainieren, die neue generative KI-Tools unterstützen, sodass unsere Benutzer frei und schnell mit Ideen experimentieren können. Da wir größere Modelle trainieren wollen, benötigen wir die Fähigkeit, Hunderte von GPUs während unserer Trainingsläufe vorhersehbar zu skalieren. Es ist spannend zu sehen, dass AWS EC2-Kapazitätsblöcke mit Unterstützung für P5-Instances auf den Markt bringt. Wir können jetzt vorhersehbaren Zugriff auf bis zu 512 NVIDIA-H100-GPUs in EC2-UltraClustern mit niedriger Latenz erhalten, um noch größere Modelle als zuvor zu trainieren.

Greg Roodt, Head of Data Platforms, Canva
Dashtoon

Dashtoon verbindet modernste KI mit Kreativität, um Geschichtenerzähler zu Künstlern zu machen, die unabhängig von ihren künstlerischen Fähigkeiten oder technischen Kenntnissen digitale Comics erstellen können und dabei traditionelle Barrieren bei der Erstellung illustrierter Inhalte durchbrechen. Wir haben mehr als 80 000 aktive Benutzer (MAUs) pro Monat, die unsere App nutzen, um Comics zu konsumieren, während unsere Ersteller täglich über 100 000 Bilder in Dashtoon Studio generieren. Wir verwenden AWS von Anfang an und verwenden Amazon-EC2-P5-Instances, um multimodale Modelle wie Stable Diffusion XL, GroundingDINO und Segment Anything zu trainieren und zu optimieren. Wir haben festgestellt, dass sich die Leistung bei der Verwendung von P5-Instances, die auf NVIDIA-H100-GPUs basieren, um das Dreifache verbessert hat, verglichen mit gleichwertigen P4d-Instances, die auf NVIDIA-A100-GPUs basieren. Unsere Trainingsdatensätze sind unterschiedlich groß, und da wir versuchen, unser Modelltraining zu skalieren, ermöglichen uns Amazon-EC2-Kapazitätsblöcke für ML, flexibel auf unsere GPU-Anforderungen einzugehen, und zwar mit vorhersehbaren, niedrigen Vorlaufzeiten (schon am nächsten Tag). Das hilft uns, die Zeit für die Veröffentlichung neuer Funktionen für unsere Benutzer zu verkürzen. Wir freuen uns, EC2-Kapazitätsblöcke weiterhin zu nutzen, um unsere Innovation zu beschleunigen.

Soumyadeep Mukherjee, Co-Founder & Chief Technology Officer, Dashtoon
Leonardo.Ai

Unser Team bei Leonardo nutzt generative KI, um Kreativprofis und -enthusiasten in die Lage zu versetzen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Unser Fundament basiert auf einer Reihe fein abgestimmter KI-Modelle und leistungsstarker Tools, die eine granulare Steuerung sowohl vor als auch nach dem Generieren ermöglichen. Wir nutzen eine breite Palette von AWS-Services nicht nur zum Erstellen und Trainieren unserer Modelle, sondern auch zum Hosten der Modelle, um die Nutzung durch Millionen monatlich aktiver Kunden zu unterstützen. Wir freuen uns über die Einführung von EC2-Kapazitätsblöcken für ML. Es ermöglicht uns den elastischen Zugriff auf die GPU-Kapazität für Training und Experimente und bietet uns gleichzeitig die Möglichkeit, zu anderen EC2-Instances zu wechseln, die unsere Datenverarbeitungsanforderungen möglicherweise besser erfüllen.

Peter Runham, CTO, Leonardo.Ai
OctoAI

Bei OctoAI ermöglichen wir Anwendungsentwicklern, generative KI einfach auszuführen, zu optimieren und zu skalieren, die Modellausführung zu optimieren und mithilfe von Automatisierung ihre Services zu skalieren und den technischen Aufwand zu reduzieren. Unsere Fähigkeit, die GPU-Kapazität für kurze Zeiträume zu erhöhen, ist von entscheidender Bedeutung, insbesondere da wir mit Kunden zusammenarbeiten, die ihre ML-Anwendungen im Rahmen ihrer Produkteinführungen schnell von Null auf Millionen von Benutzern skalieren möchten. EC2-Kapazitätsblöcke für ML ermöglichen es uns, verschiedene Größen von GPU-Clustern vorhersehbar aufzusetzen, die den geplanten Skalierungen unserer Kunden entsprechen, und bieten zugleich potenzielle Kosteneinsparungen verglichen mit langfristigen Kapazitätsverpflichtungen oder der Bereitstellung vor Ort.

Luis Ceze, CEO, OctoAI
Snorkel

Die KI-Datenentwicklungsplattform von Snorkel hilft Unternehmen dabei, KI schnell zu entwickeln und zu nutzen. Dazu gehört zunehmend auch die Destillierung von Informationen aus rechenintensiven LLMs in kleinere Spezialmodelle, was während der Entwicklung kurzfristige Rechenleistungen erfordert. EC2-Kapazitätsblöcke für ML haben das Potenzial, eine erhebliche Verbesserung gegenüber bestehenden Optionen zur Erfassung von GPU-Kapazität zu bieten. Der garantierte Zugriff auf kurzfristige GPU-Kapazität und die hohe Netzwerkleistung von EC2-UltraClustern sind wichtige Voraussetzungen für die KI-Entwicklungsworkflows, die Unternehmen heute und in den kommenden Jahren unterstützen müssen.

Braden Hancock, Co-Founder & Head of Technology, Snorkel