NVIDIA H200 Tensor コア GPU と EFAv3 ネットワーキングを搭載した新しい Amazon EC2 P5en インスタンス

12 月 2 日、NVIDIA H200 Tensor コア GPU と、AWS でのみ利用可能な 3.2 GHz のオールコアターボ周波数 (最大コアターボ周波数 3.8 GHz) のカスタム第 4 世代 Intel Xeon スケーラブルプロセッサーを搭載した Amazon Elastic Compute Cloud (Amazon EC2) P5en インスタンスの一般提供についてお知らせします。これらのプロセッサでは、メモリ帯域幅が 50% 向上し、PCIe Gen5 で CPU と GPU 間のスループットが最大 4 倍になるので、機械学習 (ML) トレーニングと推論ワークロードのパフォーマンスが大きく向上します。

P5en は、Nitro v5 を使用する最大 3200 Gbps の第 3 世代 Elastic Fabric Adapter (EFAv3) を搭載しており、前世代の EFA と Nitro を使用する P5 に比べてレイテンシーが最大 35% 向上しています。これにより、深層学習、生成 AI、リアルタイムデータ処理、ハイパフォーマンスコンピューティング (HPC) などの用途における分散型トレーニングワークロードの集団通信パフォーマンスが向上します。

P5en インスタンスの仕様は次のとおりです。

インスタンスサイズ	vCPU	メモリ (GiB)	GPU (H200)	ネットワーク帯域幅 (Gbps)	GPU ピアツーピア (GB/秒)	インスタンスストレージ (GB)	EBS 帯域幅 (Gbps)
p5en.48xlarge	192	2048	8	3200	900	8 x 3.84	100

9 月 9 日、Amazon EC2 P5e インスタンスが発表されました。このインスタンスは、1128 GB の高帯域幅 GPU メモリを搭載した 8 基の NVIDIA H200 GPU、第 3 世代 AMD EPYC プロセッサ、2 TiB のシステムメモリ、30 TB のローカル NVMe ストレージを備えています。これらのインスタンスは GPUDirect RDMA をサポートし、EFAv2 による最大 3200 Gbps の集約ネットワーク帯域幅を提供します。これにより、ノード間通信で CPU をバイパスすることでレイテンシーを低減し、パフォーマンスを効率的にスケールアウトすることが可能になります。

P5en インスタンスでは、推論とネットワークレイテンシーがさらに削減され、さまざまな GPU アクセラレーションアプリケーションの全体的な効率性を高めることができます。P5 インスタンスと比較して、P5en インスタンスでは、ローカルストレージのパフォーマンスが最大 2 倍向上し、Amazon Elastic Block Store (Amazon EBS) の帯域幅が最大 25% 向上するので、ローカルストレージを使用してモデルの重みをキャッシュしているユーザーの推論レイテンシーパフォーマンスがさらに向上します。

頻繁なデータ交換を必要とする大規模なデータセットやワークロードでは、特に CPU と GPU 間のデータ転送に時間がかかる場合があります。P5 や P5e インスタンスと比較して、PCIe Gen 5 での CPU と GPU 間の帯域幅が最大 4 倍になるため、複雑な大規模言語モデル (LLM) とマルチモーダル基盤モデル (FM) に加えて、シミュレーション、医薬品発見、天気予報、財務モデリングなど、メモリを大量に消費する HPC 用途のモデルトレーニング、微調整、推論の実行におけるレイテンシをさらに改善できます。

Amazon EC2 P5en インスタンスの使用を開始する
米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (東京) の AWS リージョンで利用可能な EC2 P5en インスタンスは、EC2 Capacity Blocks for ML、オンデマンド、Savings Plan の購入オプションを通して使用できます。

オプションとしてキャパシティ予約を含む P5en インスタンスの使用方法を紹介したいと思います。EC2 キャパシティブロックを予約するには、Amazon EC2 コンソールで米国東部 (オハイオ) の AWS リージョンの [キャパシティ予約] を選択します。

[ML 用キャパシティブロックを購入] を選択してから合計容量を選択し、p5en.48xlarge インスタンス用の EC2 キャパシティブロックが必要な期間を指定します。EC2 キャパシティブロックを予約できる合計日数は 1～14 日、21 日、または 28 日です。EC2 キャパシティブロックは最大 8 週間前に購入できます。

[キャパシティブロックを検索] を選択すると、ユーザー指定の日付範囲内で仕様を満たす利用可能な最低料金のオプションが返されます。EC2 キャパシティブロックの詳細、タグ、および合計料金情報を確認し、[購入] を選択します。

これで、EC2 キャパシティブロックが正常にスケジュールされます。EC2 キャパシティブロックの合計料金は前払いで請求され、購入後に料金が変更されることはありません。支払いは、EC2 キャパシティブロックを購入してから 12 時間以内にお客様のアカウントに請求されます。詳細については、Amazon EC2 ユーザーガイドの「Capacity Blocks for ML」を参照してください。

購入したキャパシティブロック内でインスタンスは、AWS マネジメントコンソール、AWS コマンドラインインターフェイス (AWS CLI)、または AWS SDK を使用して実行することができます。

ここでは、16 個の P5en インスタンスを実行して EFAv3 のメリットを最大化する AWS CLI コマンドの例を示します。この構成では、8 つのプライベート IP アドレスで最大 3200 Gbps の EFA ネットワーク帯域幅と最大 800 Gbps の IP ネットワーク帯域幅が提供されます。

$ aws ec2 run-instances --image-id ami-abc12345 \
  --instance-type p5en.48xlarge \
  --count 16 \
  --key-name MyKeyPair \
  --instance-market-options MarketType='capacity-block' \
  --capacity-reservation-specification CapacityReservationTarget={CapacityReservationId=cr-a1234567}
--network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=1,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=2,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=3,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=4,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=5,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=6,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=7,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=8,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=9,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=10,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=11,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=12,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=13,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=14,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=15,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=16,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=17,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=18,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=19,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=20,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=21,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=22,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=23,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=24,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=25,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=26,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=27,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=28,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=29,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=30,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=31,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only"
...

P5en インスタンスを起動するとき、AWS Deep Learning AMI (DLAMI) を使用して EC2 P5en インスタンスをサポートできます。DLAMI は、事前設定された環境でスケーラブルで安全な分散型 ML アプリケーションをすばやく構築するためのインフラストラクチャとツールを ML の専門家や研究者に提供します。

Amazon Elastic Container Service (Amazon ECS) または Amazon Elastic Kubernetes Service (Amazon EKS) のライブラリを使用して、P5en インスタンス上で AWS Deep Learning Containers でコンテナ化された ML アプリケーションを実行できます。

大規模なデータセットにすばやくアクセスするには、最大 30 TB のローカル NVMe SSD ストレージを使用するか、Amazon Simple Storage Service (Amazon S3) で費用対効果の高い事実上無制限のストレージを使用することができます。P5en インスタンスで Amazon FSx for Lustre ファイルシステムを使用して、大規模な深層学習と HPC ワークロードに必要な数百 GB/秒のスループットと 1 秒あたり数百万回の入出力オペレーション (IOPS) でデータにアクセスすることもできます。

今すぐご利用いただけます
現在、Amazon EC2 P5en インスタンスは、EC2 Capacity Blocks for ML、オンデマンド、Savings Plan の購入オプションを通して、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (東京) の AWS リージョンと米国東部 (アトランタ) ローカルゾーン us-east-1-atl-2a でご利用いただけます。詳細については、Amazon EC2 料金のページを参照してください。

Amazon EC2 コンソールで Amazon EC2 P5en インスタンスを試してみてください。詳細については、Amazon EC2 P5 インスタンスのページを参照してください。フィードバックは、EC2 の AWS re:Post、または通常の AWS サポートの担当者までお寄せください。

– Channy

原文はこちらです。

Amazon Web Services ブログ

NVIDIA H200 Tensor コア GPU と EFAv3 ネットワーキングを搭載した新しい Amazon EC2 P5en インスタンス

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ