Amazon EC2 UltraClusters

HPC- und ML-Anwendungen in großem Maßstab ausführen

Warum Amazon-EC2-UltraCluster?

Amazon Elastic Compute Cloud (Amazon EC2)-UltraCluster können Sie bei der Skalierung auf Tausende von GPUs oder speziell entwickelten ML-Beschleunigern wie AWS Trainium unterstützen, um bei Bedarf Zugriff auf einen Supercomputer zu erhalten. Sie demokratisieren den Zugang zu Supercomputing-Leistung für Entwickler von Machine Learning (ML), generativer KI und High Performance Computing (HPC) durch ein einfaches nutzungsabhängiges Nutzungsmodell ohne Einrichtungs- oder Wartungskosten. Amazon-EC2-P5-Instances, Amazon-EC2-P4d-Instances und Amazon-EC2-Trn1-Instances werden alle in Amazon-EC2-UltraClustern bereitgestellt.

EC2-UltraCluster bestehen aus Tausenden von beschleunigten EC2-Instances, die sich in einer bestimmten AWS Availability Zone befinden und über Elastic Fabric Adapter (EFA)-Netzwerke in einem nicht blockierenden Netzwerk im Petabit-Bereich miteinander verbunden sind. EC2-UltraCluster bieten auch Zugriff auf Amazon FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten leistungsstarken, parallelen Dateisystem basiert, um schnell riesige Datensätze On-Dermand und in großem Umfang mit Latenzen von unter einer Millisekunde zu verarbeiten. EC2-UltraCluster bieten Scale-Out-Funktionen für verteiltes ML-Training und eng gekoppelte HPC-Workloads.

Amazon-EC2-P5- und Trn1-Instances verwenden eine EC2-UltraCluster-Architektur der zweiten Generation, die eine Netzwerkstruktur bietet, die weniger Hops im Cluster, eine niedrigere Latenz und eine größere Skalierung ermöglicht.

Vorteile

Funktionen

Leistungsstarkes Netzwerk

EC2-Instances, die in EC2-UltraClustern bereitgestellt werden, sind mit dem EFA-Netzwerk verbunden, um die Leistung für verteilte Trainingsworkloads und eng gekoppelte HPC-Workloads zu verbessern. P5-Instances liefern bis zu 3 200 Gbit/s; Trn1-Instances liefern bis zu 1 600 Gbit/s; und P4d-Instances bieten bis zu 400 Gbit/s an EFA-Netzwerken. EFA ist auch mit NVIDIA GPUDirect RDMA (P5, P4d) und NeuronLink (Trn1) gekoppelt, um die Beschleuniger-zu-Beschleuniger-Kommunikation mit niedriger Latenz zwischen Servern mit Umgehung des Betriebssystems zu ermöglichen.

Leistungsstarker Speicher

EC2-UltraCluster verwenden FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten parallelen Hochleistungsdateisystem basiert. Mit FSx für Lustre können Sie riesige Datensätze On-Demand und in großem Umfang schnell verarbeiten und Latenzen unter einer Millisekunde bereitstellen. Die Eigenschaften von FSx für Lustre mit niedriger Latenz und hohem Durchsatz sind für DL-, generative KI- und HPC-Workloads auf EC2-UltraClustern optimiert. FSx für Lustre versorgt die GPUs und ML-Beschleuniger in EC2-UltraClustern mit Daten und beschleunigt so die anspruchsvollsten Workloads. Zu diesen Workloads gehören Trainings von großen Sprachmodellen (LLM), generative KI-Inferenzierung, DL, Genomik und finanzielle Risikomodellierung. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch auf praktisch unbegrenzten kostengünstigen Speicherplatz zugreifen.

Unterstützte Instance