Amazon EC2 UltraClusters

HPC アプリケーションと ML アプリケーションを大規模に実行

Amazon EC2 UltraClusters を利用すべき理由

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters は、数千の GPU または AWS Trainium などの専用の ML AI チップにスケールし、スーパーコンピュータにオンデマンドでアクセスするのに役立ちます。シンプルな従量制料金の使用モデルを通じて、設定やメンテナンスのコストなしで、機械学習 (ML)、生成 AI、および高性能コンピューティング (HPC) のデベロッパーのために、スーパーコンピューティングクラスのパフォーマンスへのアクセスを民主化します。EC2 UltraClusters にデプロイされる Amazon EC2 インスタンスには、P5en、P5e、P5、P4d、Trn2、Trn1 インスタンスが含まれます。

EC2 UltraClusters は、特定の AWS アベイラビリティーゾーンに共同配置され、Pb 規模のノンブロッキングネットワークで Elastic Fabric Adapter (EFA) ネットワーキングを使用して相互接続された、数千のアクセラレーテッド EC2 インスタンスで構成されています。また、EC2 UltraClusters は、Amazon FSx for Lustre へのアクセスも提供します。Amazon FSx for Lustre は、極めて人気のある高性能並列ファイルシステム上に構築されたフルマネージド共有ストレージであり、大量のデータセットをオンデマンドで、かつ、ミリ秒未満のレイテンシーで大規模かつ迅速に処理します。EC2 UltraClusters は、分散 ML トレーニングと密結合された HPC ワークロード向けにスケールアウト機能を提供します。

利点

特徴

高性能ネットワーク

EC2 UltraClusters にデプロイされた EC2 インスタンスは、EFA ネットワークで相互接続され、分散トレーニングワークロードと密結合 HPC ワークロードのパフォーマンスを改善します。P5 インスタンスは最大 3,200 Gbps を提供します。Trn1 インスタンスは最大 1,600 Gbps を提供し、P4d インスタンスは最大 400 Gbps の EFA ネットワークを提供します。また、EFA は NVIDIA GPUDirect RDMA (P5、P4d) および NeuronLink (Trn1) とも連携しており、オペレーティングシステムをバイパスしてサーバー間の低レイテンシーのアクセラレーター間通信を可能にします。

ハイパフォーマンスストレージ

EC2 UltraClusters は、極めて人気のある高性能並列ファイルシステム上に構築された、フルマネージド共有ストレージである FSx for Lustre を使用します。FSx for Lustre を利用すると、巨大なデータセットをオンデマンドで大規模かつ迅速に処理し、1 ミリ秒未満のレイテンシーを実現できます。FSx for Lustre の低レイテンシーかつ高スループットの特性は、EC2 UltraClusters 上の DL、生成 AI、および HPC ワークロード向けに最適化されています。FSx for Lustre は、EC2 UltraClusters の GPU と ML アクセラレーターにデータが提供され続けるようにし、極めて要求の厳しいワークロードを加速します。これらのワークロードには、大規模言語モデル (LLM) トレーニング、生成 AI 推論、DL、ゲノミクス、および金融リスクモデリングが含まれます。また、Amazon Simple Storage Service (Amazon S3) を利用すると、費用対効果の高い事実上無制限のストレージにアクセスできます。

サポートされているインスタンス