Amazon EC2 UltraClusters を利用すべき理由
Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters は、数千の GPU または AWS Trainium などの専用の ML AI チップにスケールし、スーパーコンピュータにオンデマンドでアクセスするのに役立ちます。シンプルな従量制料金の使用モデルを通じて、設定やメンテナンスのコストなしで、機械学習 (ML)、生成 AI、および高性能コンピューティング (HPC) のデベロッパーのために、スーパーコンピューティングクラスのパフォーマンスへのアクセスを民主化します。EC2 UltraClusters にデプロイされる Amazon EC2 インスタンスには、P6e-GB200、P6-B200、P5en、P5e、P5、P4d、Trn2、Trn1 インスタンスが含まれます。
EC2 UltraClusters は、特定の AWS アベイラビリティーゾーンに共同配置され、ペタビット規模のノンブロッキングネットワークで Elastic Fabric Adapter (EFA) ネットワークを使用して相互接続された、数千のアクセラレーテッド EC2 インスタンスで構成されています。EC2 UltraClusters では、 Amazon FSx for Lustre にアクセスすることもできます。Lustre は、最も人気のある高性能な並列ファイルシステム上に構築された完全マネージド型の共有ストレージで、大量のデータセットをオンデマンドで大規模かつミリ秒未満のレイテンシーで迅速に処理できます。EC2 UltraClusters は、分散 ML トレーニングと密結合された HPC ワークロード向けにスケールアウト機能を提供します。
メリット
分散トレーニングと HPC のために、ソリューション実現までの時間を短縮
エクサスケールのスーパーコンピュータへのオンデマンドアクセス
パフォーマンスとコストを最適化する柔軟性
特徴
高性能ネットワーク
ハイパフォーマンスストレージ
サポートされているインスタンスと UltraServer
P6e-GB200 UltraServers
NVIDIA GB200 NVL72 によって高速化された UltraServer 設定の P6e-GB200 インスタンスは、Amazon EC2 で最高の GPU AI トレーニングと推論パフォーマンスを提供します。
P6-B200 インスタンス
NVIDIA Blackwell GPU によって高速化された Amazon EC2 P6-B200 インスタンスは、AI トレーニング、推論、ハイパフォーマンスコンピューティングのための高性能インスタンスを提供します。
Trn2 インスタンスと UltraServers
AWS Trainium2 AI チップを搭載した Trn2 インスタンスは、同等の GPU ベースのインスタンスと比較して、最大 30~40% 優れた料金パフォーマンスを提供します。
P5en、P5e、P5 インスタンス
NVIDIA H200 Tensor Core GPU を搭載した P5en および P5e インスタンスは、ML トレーニングと HPC アプリケーションのために Amazon EC2 でハイパフォーマンスを提供します。P5 インスタンスは、NVIDIA H100 Tensor Core GPU を搭載しています。
P4d インスタンス
NVIDIA A100 Tensor Core GPU を搭載した P4d インスタンスは、ML トレーニングと HPC アプリケーションのために高いパフォーマンスを提供します。
Trn1 インスタンス
AWS Trainium AI チップを搭載した Trn1 インスタンスは、高性能 ML トレーニング用に特別に構築されています。同等の EC2 のインスタンスと比較して、トレーニングにかかるコストを最大 50% 削減します。
今日お探しの情報は見つかりましたか?
ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます