メインコンテンツに移動

Amazon EC2

Amazon EC2 P6e UltraServer と P6 インスタンス

AI トレーニングと推論に最適な最高の GPU パフォーマンス

Amazon EC2 P6e UltraServer と P6 インスタンスを選ぶ理由

NVIDIA GB200 NVL72 によって高速化された Amazon Elastic Compute Cloud (Amazon EC2) P6e UltraServer は、Amazon EC2 で最高の GPU パフォーマンスを提供します。P6e-GB200 は、P5en インスタンスと比較して、NVIDIA NVLinkTM では 20 倍を超えるコンピューティングと 11 倍以上のメモリを備えています。これらの UltraServer は、数兆パラメータ規模での最先端モデルのトレーニングや導入など、計算量やメモリを大量に消費する AI ワークロードに最適です。NVIDIA GB300 NVL72 によってアクセラレーションされた P6e-GB300 UltraServer は、P6e-GB200 インスタンスと比較して 1.5 倍の GPU メモリと 1.5 倍の GPU TFLOPS (FP4、スパースなし) を実現します。UltraServer 1 台あたり 20TB 近くの GPU メモリを搭載した P6e-GB300 は、1 兆パラメータ規模の AI モデルやユースケースに最適です。

Amazon EC2 P6 インスタンスは、NVIDIA Blackwell と Blackwell Ultra GPU によって高速化されており、中規模から大規模のトレーニングや推論アプリケーションに最適なオプションです。P6-B200 インスタンスは AI トレーニングと推論において P5en インスタンスと比較して最大 2 倍のパフォーマンスを発揮し、P6-B300 インスタンスは大規模な AI トレーニングと推論において高いパフォーマンスを発揮します。これらのインスタンスは、エキスパートの混合モデル (MoE) や数兆個のパラメーターを含む推論モデルなどの高度なモデルに適しています。

P6e UltraServer と P6 インスタンスにより、次世代の AI モデルのトレーニングが迅速になり、本番環境でのリアルタイム推論のパフォーマンスが向上します。P6e UltraServer と P6 インスタンスを使用して、MoE や推論モデルなどのフロンティア基盤モデル (FM) をトレーニングし、コンテンツ生成、エンタープライズコパイロット、ディープリサーチエージェントなどの生成 AI およびエージェンティック AI アプリケーションに展開できます。

メリット

P6e UltraServer

P6e-GB300 では、P6e-GB200 と比較して 1.5 倍の GPU メモリと 1.5 倍の GPU TFLOPS (FP4、スパースなし) を活用し、最もコンピューティングとメモリを大量に消費する AI ワークロードのパフォーマンスを向上させることができます。

P6e-GB200 UltraServer を使用すると、1 つの NVLink ドメイン内で最大 72 基の Blackwell GPU にアクセスして、360 ペタフロップスの FP8 コンピューティング (スパース性を利用しない)、合計 13.4 TB の高帯域幅メモリ (HBM3e) を活用できます。P6e-GB200 UltraServer は、GPU 間で最大 130 テラバイト/秒の低遅延 NVLink 接続を提供し、AI トレーニングと推論のための Elastic Fabric Adapter ネットワーク (EFAv4) 全体の最大 28.8 テラビット/秒を提供します。P6e-GB200 上のこの UltraServer アーキテクチャにより、お客様は、P5en と比較して最大 20 倍の GPU TFLOPS、11 倍の GPU メモリ、および 15 倍の GPU メモリ帯域幅を実現し、コンピューティングとメモリを段階的に改善できます。

P6 インスタンス

P6-B300 インスタンスは、2.1 TB の高帯域幅 GPU メモリを搭載した NVIDIA Blackwell Ultra GPU を 8 基、6.4 Tbps の EFA ネットワーキング、300 Gbps の専用 ENA スループット、4 TB のシステムメモリを装備しています。P6-B300 インスタンスは、P6-B200 インスタンスと比較して 2 倍のネットワーク帯域幅、1.5 倍の GPU メモリサイズ、1.5 倍の GPU TFLOPS (FP4 の場合、スパースなし) を実現します。これらの改善により、P6-B300 インスタンスは大規模な ML トレーニングや推論に適しています。

P6-B200 インスタンスには、1440 GB の高帯域幅 GPU メモリを搭載した 8 基の NVIDIA Blackwell GPU、第 5 世代インテル Xeon スケーラブルプロセッサ (Emerald Rapids)、2 TiB のシステムメモリ、最大 14.4 TB/s の双方向 NVLink 帯域幅、30 TB のローカル NVMe ストレージが搭載されています。これらのインスタンスは、P5en インスタンスと比較して最大 2.25 倍の GPU TFLOP、1.27 倍の GPU メモリサイズ、1.6 倍の GPU メモリ帯域幅を備えています。

 

P6e UltraServer と P6 インスタンスは、制限を適用するように設計された特別なハードウェアとファームウェアを備えた AWS Nitro System を搭載しており、AWS の誰も機密性の高い AI ワークロードやデータにアクセスできないように設計されています。ネットワーク、ストレージ、その他の I/O 機能を処理する Nitro System は、稼働中でもファームウェアの更新、バグ修正、最適化を行うことができます。これにより、安定性が向上し、ダウンタイムが短縮されます。これは、トレーニングのスケジュールを順守し、本番環境で AI アプリケーションを実行するために重要です。

効率的な分散トレーニングを可能にするために、P6e UltraServer と P6 インスタンスは第 4 世代の Elastic Fabric Adapter ネットワーク (eFav4) を使用しています。eFav4 は Scalable Reliable Datagram (SRD) プロトコルを使用してトラフィックを複数のネットワークパスにインテリジェントにルーティングし、混雑時や障害時でもスムーズな運用を維持します。

P6e UltraServer と P6 インスタンスは Amazon EC2 UltraClusters にデプロイされます。これにより、ペタビットスケールのノンブロッキングネットワーク内で最大数万の GPU までスケールアップできます。

特徴

P6-B200 インスタンスに搭載されている各 NVIDIA Blackwell GPU には、第 2 世代のトランスフォーマーエンジンが搭載されており、FP4 などの新しい高精度フォーマットをサポートしています。GPU あたり最大 1.8 Tbps の帯域幅を実現する、より高速で幅の広い相互接続である第 5 世代の NVLink をサポートしています。

P6e-GB200 の主要コンポーネントである Grace Blackwell Superchip は、NVIDIA NVLINK-C2C インターコネクトを使用して、2 つの高性能 NVIDIA Blackwell GPU と 1 つの NVIDIA Grace CPU を接続します。各 Superchip は、10 ペタフロップの FP8 コンピューティング (スパースなし) と最大 372 GB の HBM3e を提供します。スーパーチップアーキテクチャでは、2 つの GPU と 1 つの CPU が 1 つのコンピューティングモジュール内に同じ場所に配置され、現世代の P5en インスタンスと比較して GPU と CPU 間の帯域幅が桁違いに増加します。

P6-B300 インスタンスを支える NVIDIA Blackwell Ultra GPU は、P6-B200 インスタンスと比べて、ネットワーク帯域幅が 2 倍、GPU メモリが 1.5 倍、そして FP4 (スパース化なし) での実効 TFLOPS は最大 1.5 倍向上しています。

P6e-GB300 UltraServer に搭載されている Grace Blackwell Superchip は、2 台の NVIDIA Blackwell Ultra GPU を 1 台の NVIDIA Grace CPU に接続し、1.5 倍の GPU メモリと最大 1.5 倍の FP4 コンピューティングの向上 (スパースなし) を実現します。

P6e UltraServer と P6 インスタンスは、GPU あたり 400 GB ps の EFAv4 ネットワーキングを提供します。つまり、P6e-GB200 UltraServer あたり合計 28.8 Tbps、P6-B200 インスタンスあたり合計 3.2 Tbps です。

P6-B300 インスタンスは 6.4 Tbps のネットワーク帯域幅を提供し、PCle Gen6 により P6-B200 インスタンスの 2 倍となり、大規模な分散型深層学習モデルトレーニング向けに設計されています。

P6e UltraServer および P6 インスタンスは Amazon FSx for Lustre ファイルシステムをサポートしているため、大規模な AI トレーニングおよび推論に必要な数百 GBp/秒のスループットと数百万 IOPS でデータにアクセスできます。P6e UltraServer は最大 405 TB のローカル NVMe SSD ストレージをサポートし、P6 インスタンスは最大 30 TB のローカル NVMe SSD ストレージをサポートし、大規模なデータセットへの高速アクセスを実現します。また、Amazon Simple Storage Service (Amazon S3) では、費用対効果の高いストレージを事実上無制限に使用できます。

製品の詳細

インスタンスタイプ

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 Ultra

2,144 HBM3e

192

4,096

8 x 3.84

6.4

100

いいえ

p6-b200.48xlarge

8

1,432 HBM3e

192

2,048

8 x 3.84

3.2

100

いいえ

p6e-gb200.36xlarge

4

740 HBM3e

144

960

3 x 7.5

3.2

60

あり*

*P6e-GB200 インスタンスは UltraServer でのみ使用可能です

UltraServer タイプ

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13,320

2,592

17,280

405

28,800

1,080

はい

u-p6e-gb200x36

36

6,660

1,296

8,640

202.5

14,400

540

はい

ML の開始方法のユースケース

Amazon SageMaker AI は、ML モデルを構築、トレーニング、デプロイするフルマネージドサービスです。Amazon SageMaker HyperPod を使用すると、設定を気にすることなく、クラスターの回復力のあるトレーニングを管理することなく、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。(P6e-GB200 のサポートは近日公開予定です)

AWS Deep Learning AMI (DLAMI) は、その規模を問わず、クラウド上で DL を加速するためのインフラストラクチャとツールを、ML の実践者と研究者に提供します。 AWS Deep Learning Containers は、深層学習フレームワークがプリインストールされた Docker イメージであり、環境の構築と最適化をゼロから行う複雑なプロセスをスキップして、カスタム ML 環境のデプロイを合理化します。

コンテナオーケストレーションサービスを通じて独自のコンテナ化されたワークロードを管理したい場合は、Amazon Elastic Kubernetes Service (Amazon EKS) または Amazon Elastic Container Service (Amazon ECS) を使用して P6e-GB200 UltraServer と P6-B200 インスタンスをデプロイできます。

P6e UltraServer は、NVIDIA の完全な AI ソフトウェアスタックを備えたフルマネージド環境である NVIDIA NVIDA DGX Cloud からも利用できるようになります。NVIDIA DGX Cloud では、NVIDIA の最新の最適化、ベンチマークレシピ、技術的な専門知識を活用できます。

詳細

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます