Warum Amazon-EC2-UltraCluster?
Amazon Elastic Compute Cloud (Amazon EC2)-UltraCluster können Sie bei der Skalierung auf Tausende von GPUs oder speziell entwickelten ML-Beschleunigern wie AWS Trainium unterstützen, um bei Bedarf Zugriff auf einen Supercomputer zu erhalten. Sie demokratisieren den Zugang zu Supercomputing-Leistung für Entwickler von Machine Learning (ML), generativer KI und High Performance Computing (HPC) durch ein einfaches nutzungsabhängiges Nutzungsmodell ohne Einrichtungs- oder Wartungskosten. Amazon-EC2-P5-Instances, Amazon-EC2-P4d-Instances und Amazon-EC2-Trn1-Instances werden alle in Amazon-EC2-UltraClustern bereitgestellt.
EC2-UltraCluster bestehen aus Tausenden von beschleunigten EC2-Instances, die sich in einer bestimmten AWS Availability Zone befinden und über Elastic Fabric Adapter (EFA)-Netzwerke in einem nicht blockierenden Netzwerk im Petabit-Bereich miteinander verbunden sind. EC2-UltraCluster bieten auch Zugriff auf Amazon FSx für Lustre, einen vollständig verwalteten gemeinsamen Speicher, der auf dem beliebtesten leistungsstarken, parallelen Dateisystem basiert, um schnell riesige Datensätze On-Dermand und in großem Umfang mit Latenzen von unter einer Millisekunde zu verarbeiten. EC2-UltraCluster bieten Scale-Out-Funktionen für verteiltes ML-Training und eng gekoppelte HPC-Workloads.
Amazon-EC2-P5- und Trn1-Instances verwenden eine EC2-UltraCluster-Architektur der zweiten Generation, die eine Netzwerkstruktur bietet, die weniger Hops im Cluster, eine niedrigere Latenz und eine größere Skalierung ermöglicht.