Überspringen zum Hauptinhalt

Amazon-EC2-UltraCluster

HPC- und ML-Anwendungen in großem Maßstab ausführen

Warum Amazon-EC2-UltraCluster?

Amazon Elastic Compute Cloud (Amazon EC2)-UltraCluster können Sie bei der Skalierung auf Tausende von GPUs oder speziell entwickelten ML-KI-Chips wie AWS Trainium unterstützen, um bei Bedarf Zugriff auf einen Supercomputer zu erhalten. Sie demokratisieren den Zugang zu Supercomputing-Leistung für Entwickler von Machine Learning (ML), generativer KI und High Performance Computing (HPC) durch ein einfaches nutzungsabhängiges Nutzungsmodell ohne Einrichtungs- oder Wartungskosten. Zu den Amazon-EC2-Instances, die in EC2 UltraClusters bereitgestellt werden, gehören P6e-GB200-, P6-B200-, P5en-, P5e-, P5-, P4d-, Trn2- und Trn1-Instances.

EC2-UltraCluster bestehen aus Tausenden von beschleunigten EC2-Instances, die sich in einer bestimmten AWS Availability Zone befinden und über Elastic Fabric Adapter (EFA)-Netzwerke in einem nicht blockierenden Netzwerk im Petabit-Bereich miteinander verbunden sind. EC2 UltraCluster bieten auch Zugriff auf Amazon FSx for Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten leistungsstarken, parallelen Dateisystem basiert, um riesige Datensätze schnell und bedarfsgerecht mit Latenzen von unter einer Millisekunde zu verarbeiten. EC2-UltraCluster bieten Scale-Out-Funktionen für verteiltes ML-Training und eng gekoppelte HPC-Workloads.

Vorteile

Mit EC2-UltraClustern können Sie die Trainingszeiten und die Zeit bis zur Problemlösung von Wochen auf nur wenige Tage reduzieren. Dies hilft Ihnen, schneller zu iterieren und Ihre Deep Learning (DL)-, generativen KI- und HPC-Anwendungen schneller auf den Markt zu bringen.
EC2-UltraCluster bestehen aus Tausenden von beschleunigten EC2-Instances, die sich in einer bestimmten AWS Availability Zone befinden und über Elastic Fabric Adapter (EFA)-Netzwerke in einem nicht blockierenden Netzwerk im Petabit-Bereich miteinander verbunden sind. Sie ermöglichen Ihnen den On-Demand-Zugriff auf mehrere Exaflops beschleunigter Rechenleistung. 
EC2-UltraCluster werden auf einer wachsenden Liste von EC2-Instances unterstützt und bieten Ihnen die Flexibilität, die richtige Datenverarbeitungsoption zu wählen, um die Leistung zu maximieren und gleichzeitig die Kosten für Ihren Workload unter Kontrolle zu halten.

Funktionen

Leistungsstarkes Netzwerk

EC2-Instances, die in EC2-UltraClustern bereitgestellt werden, sind mit dem EFA-Netzwerk verbunden, um die Leistung für verteilte Trainingsworkloads und eng gekoppelte HPC-Workloads zu verbessern. P6e-GB200 UltraServers bieten eine Gesamt-EFAv4-Netzwerkgeschwindigkeit von bis zu 28,8 Terabit pro Sekunde. P6-B200-Instances liefern bis zu 3,2 Terabit pro Sekunde an EFAv4-Netzwerken. Trn2 UltraServer verfügen über 12,8 Terabit pro Sekunde an EFAv3-Netzwerken. P5en-, P5e-, P5- und Trn2-Instances liefern bis zu 3 200 Gbit/s; Trn1-Instances liefern bis zu 1 600 Gbit/s; und P4d-Instances bieten bis zu 400 Gbit/s an EFA-Netzwerken. EFA ist auch mit NVIDIA GPUDirect Remote Direct Memory Access (RDMA) (P6-B200, P5en, P5e, P5, P4d) und NeuronLink (Trn2, Trn1) gekoppelt, um die Beschleuniger-zu-Beschleuniger-Kommunikation zwischen Servern mit niedriger Latenz unter Umgehung des Betriebssystems zu ermöglichen.

Leistungsstarker Speicher

EC2-UltraCluster verwenden FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten parallelen Hochleistungsdateisystem basiert. Mit FSx für Lustre können Sie riesige Datensätze On-Demand und in großem Umfang schnell verarbeiten und Latenzen unter einer Millisekunde bereitstellen. Die Eigenschaften von FSx für Lustre mit niedriger Latenz und hohem Durchsatz sind für DL-, generative KI- und HPC-Workloads auf EC2-UltraClustern optimiert. FSx für Lustre versorgt die GPUs und KI-Chips in EC2-UltraClustern mit Daten und beschleunigt so die anspruchsvollsten Workloads. Zu diesen Workloads gehören Trainings von großen Sprachmodellen (LLM), generative KI-Inferenzierung, DL, Genomik und finanzielle Risikomodellierung. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch auf praktisch unbegrenzten kostengünstigen Speicherplatz zugreifen.

Unterstützte Instances und UltraServer

P6e-GB200-UltraServer

Beschleunigt durch NVIDIA GB200 NVL72 bieten P6e-GB200-Instances in einer UltraServer-Konfiguration die höchste GPU-KI-Trainings- und Inferenzleistung in Amazon EC2.

Weitere Informationen

P6-B200-Instances

Amazon-EC2-Instances vom Typ P6-B200, die von NVIDIA-Blackwell-GPUs beschleunigt werden, bieten leistungsstarke Instances für KI-Training, Inferenzen und High Performance Computing.

Weitere Informationen

Trn2-Instances und -UltraServer

Trn2-Instances, die von AWS-Trainium2-KI-Chips angetrieben werden, bieten ein bis zu 30 bis 40 % besseres Preis-Leistungs-Verhältnis als vergleichbare GPU-basierte Instances.

Weitere Informationen

P5en-, P5e- und P5-Instances

P5en- und P5e-Instances, die von NVIDIA-H200-Tensor-Core-GPUs angetrieben werden, bieten die höchste Leistung in Amazon EC2 für ML-Training und HPC-Anwendungen. P5-Instances werden von NVIDIA H100 Tensor Core-GPU abgetrieben.

Weitere Informationen

P4d-Instances

P4d-Instances, die von NVIDIA-A100-Tensor-Core-GPUs angetrieben werden, bieten eine hohe Leistung für ML-Training und HPC-Anwendungen.

Weitere Informationen

Trn1-Instances

Trn1-Instances, die von AWS-Trainium-KI-Chips angetrieben werden, sind speziell für Hochleistungs-Training für ML konzipiert. Sie bieten Einsparungen von bis zu 50 % der Kosten im Vergleich zu vergleichbaren EC2-Instances.

Weitere Informationen