Amazon EC2

Amazon-EC2-UltraCluster

HPC- und ML-Anwendungen in großem Maßstab ausführen

Erste Schritte mit Trn2

Warum Amazon-EC2-UltraCluster?

Amazon Elastic Compute Cloud (Amazon EC2)-UltraCluster können Sie bei der Skalierung auf Tausende von GPUs oder speziell entwickelten ML-KI-Chips wie AWS Trainium unterstützen, um bei Bedarf Zugriff auf einen Supercomputer zu erhalten. Sie demokratisieren den Zugang zu Supercomputing-Leistung für Entwickler von Machine Learning (ML), generativer KI und High Performance Computing (HPC) durch ein einfaches nutzungsabhängiges Nutzungsmodell ohne Einrichtungs- oder Wartungskosten. Zu den Amazon-EC2-Instances, die in EC2 UltraClusters bereitgestellt werden, gehören P6e-GB200-, P6-B200-, P5en-, P5e-, P5-, P4d-, Trn2- und Trn1-Instances.

EC2-UltraCluster bestehen aus Tausenden von beschleunigten EC2-Instances, die sich in einer bestimmten AWS Availability Zone befinden und über Elastic Fabric Adapter (EFA)-Netzwerke in einem nicht blockierenden Netzwerk im Petabit-Bereich miteinander verbunden sind. EC2 UltraCluster bieten auch Zugriff auf Amazon FSx for Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten leistungsstarken, parallelen Dateisystem basiert, um riesige Datensätze schnell und bedarfsgerecht mit Latenzen von unter einer Millisekunde zu verarbeiten. EC2-UltraCluster bieten Scale-Out-Funktionen für verteiltes ML-Training und eng gekoppelte HPC-Workloads.

Vorteile

Mit EC2-UltraClustern können Sie die Trainingszeiten und die Zeit bis zur Problemlösung von Wochen auf nur wenige Tage reduzieren. Dies hilft Ihnen, schneller zu iterieren und Ihre Deep Learning (DL)-, generativen KI- und HPC-Anwendungen schneller auf den Markt zu bringen.

EC2-UltraCluster werden auf einer wachsenden Liste von EC2-Instances unterstützt und bieten Ihnen die Flexibilität, die richtige Datenverarbeitungsoption zu wählen, um die Leistung zu maximieren und gleichzeitig die Kosten für Ihren Workload unter Kontrolle zu halten.

Funktionen

Leistungsstarkes Netzwerk

EC2-Instances, die in EC2-UltraClustern bereitgestellt werden, sind mit dem EFA-Netzwerk verbunden, um die Leistung für verteilte Trainingsworkloads und eng gekoppelte HPC-Workloads zu verbessern. P6e-GB200 UltraServers bieten eine Gesamt-EFAv4-Netzwerkgeschwindigkeit von bis zu 28,8 Terabit pro Sekunde. P6-B200-Instances liefern bis zu 3,2 Terabit pro Sekunde an EFAv4-Netzwerken. Trn2 UltraServer verfügen über 12,8 Terabit pro Sekunde an EFAv3-Netzwerken. P5en-, P5e-, P5- und Trn2-Instances liefern bis zu 3 200 Gbit/s; Trn1-Instances liefern bis zu 1 600 Gbit/s; und P4d-Instances bieten bis zu 400 Gbit/s an EFA-Netzwerken. EFA ist auch mit NVIDIA GPUDirect Remote Direct Memory Access (RDMA) (P6-B200, P5en, P5e, P5, P4d) und NeuronLink (Trn2, Trn1) gekoppelt, um die Beschleuniger-zu-Beschleuniger-Kommunikation zwischen Servern mit niedriger Latenz unter Umgehung des Betriebssystems zu ermöglichen.

Leistungsstarker Speicher

EC2-UltraCluster verwenden FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten parallelen Hochleistungsdateisystem basiert. Mit FSx für Lustre können Sie riesige Datensätze On-Demand und in großem Umfang schnell verarbeiten und Latenzen unter einer Millisekunde bereitstellen. Die Eigenschaften von FSx für Lustre mit niedriger Latenz und hohem Durchsatz sind für DL-, generative KI- und HPC-Workloads auf EC2-UltraClustern optimiert. FSx für Lustre versorgt die GPUs und KI-Chips in EC2-UltraClustern mit Daten und beschleunigt so die anspruchsvollsten Workloads. Zu diesen Workloads gehören Trainings von großen Sprachmodellen (LLM), generative KI-Inferenzierung, DL, Genomik und finanzielle Risikomodellierung. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch auf praktisch unbegrenzten kostengünstigen Speicherplatz zugreifen.

Unterstützte Instances und UltraServer

P6e-GB200-UltraServer

Beschleunigt durch NVIDIA GB200 NVL72 bieten P6e-GB200-Instances in einer UltraServer-Konfiguration die höchste GPU-KI-Trainings- und Inferenzleistung in Amazon EC2.

Weitere Informationen

P6-B200-Instances

Amazon-EC2-Instances vom Typ P6-B200, die von NVIDIA-Blackwell-GPUs beschleunigt werden, bieten leistungsstarke Instances für KI-Training, Inferenzen und High Performance Computing.

Weitere Informationen

Trn2-Instances und -UltraServer

Trn2-Instances, die von AWS-Trainium2-KI-Chips angetrieben werden, bieten ein bis zu 30 bis 40 % besseres Preis-Leistungs-Verhältnis als vergleichbare GPU-basierte Instances.

Weitere Informationen

P5en-, P5e- und P5-Instances

P5en- und P5e-Instances, die von NVIDIA-H200-Tensor-Core-GPUs angetrieben werden, bieten die höchste Leistung in Amazon EC2 für ML-Training und HPC-Anwendungen. P5-Instances werden von NVIDIA H100 Tensor Core-GPU abgetrieben.

Weitere Informationen

P4d-Instances

P4d-Instances, die von NVIDIA-A100-Tensor-Core-GPUs angetrieben werden, bieten eine hohe Leistung für ML-Training und HPC-Anwendungen.

Weitere Informationen

Trn1-Instances

Trn1-Instances, die von AWS-Trainium-KI-Chips angetrieben werden, sind speziell für Hochleistungs-Training für ML konzipiert. Sie bieten Einsparungen von bis zu 50 % der Kosten im Vergleich zu vergleichbaren EC2-Instances.

Weitere Informationen

Erste Schritte

Für ein AWS-Konto anmelden

Sofort Zugriff auf das kostenlose AWS-Kontingent erhalten

Tutorial

Lernen mit 10-Minuten-Tutorials

Entdecken und lernen Sie mit einfachen Tutorials

Haben Sie die gewünschten Informationen gefunden?

Ihr Beitrag hilft uns, die Qualität der Inhalte auf unseren Seiten zu verbessern.

Amazon-EC2-UltraCluster

Warum Amazon-EC2-UltraCluster?

Vorteile

Funktionen

Leistungsstarkes Netzwerk

Leistungsstarker Speicher

Unterstützte Instances und UltraServer

P6e-GB200-UltraServer

P6-B200-Instances

Trn2-Instances und -UltraServer

P5en-, P5e- und P5-Instances

P4d-Instances

Trn1-Instances

Erste Schritte

Für ein AWS-Konto anmelden

Lernen mit 10-Minuten-Tutorials

Haben Sie die gewünschten Informationen gefunden?

Lernen

Ressourcen

Entwickler

Hilfe

Amazon-EC2-UltraCluster

Warum Amazon-EC2-UltraCluster?

Vorteile

Schnellere Lösungsfindung für verteiltes Training und HPC

On-Demand-Zugriff auf einen Exascale-Supercomputer

Flexibilität zur Optimierung von Leistung und Kosten

Funktionen

Leistungsstarkes Netzwerk

Leistungsstarker Speicher

Unterstützte Instances und UltraServer

P6e-GB200-UltraServer

P6-B200-Instances

Trn2-Instances und -UltraServer

P5en-, P5e- und P5-Instances

P4d-Instances

Trn1-Instances

Erste Schritte

Für ein AWS-Konto anmelden

Lernen mit 10-Minuten-Tutorials

Haben Sie die gewünschten Informationen gefunden?

Lernen

Ressourcen

Entwickler

Hilfe