- Amazon EC2
- インスタンスタイプ
- P4 インスタンス
Amazon EC2 P4 インスタンス
クラウドでの機械学習トレーニングと HPC アプリケーションの最高のパフォーマンス
Amazon EC2 P4 インスタンスを使用すべき理由
Amazon Elastic Compute Cloud (Amazon EC2) P4d インスタンスは、クラウドでの機械学習 (ML) トレーニングとハイパフォーマンスコンピューティング (HPC) アプリケーションのために最高のパフォーマンスを実現します。P4d インスタンスは最新の NVIDIA A100 Tensor Core GPU を搭載しており、業界トップクラスの高スループットかつ低レイテンシーのネットワークを実現します。これらのインスタンスは 400 Gbps のインスタンスネットワーキングをサポートします。P4d インスタンスは、機械学習モデルのトレーニングのコストを最大 60% 削減します。また、前世代の P3 および P3dn インスタンスと比較して深層学習モデルのパフォーマンスが平均 2.5 倍向上します。
P4d インスタンスは Amazon EC2 UltraClusters と呼ばれるクラスターにデプロイされます。このクラスターは、クラウド内の高性能コンピューティング、ネットワーク、ストレージで構成されています。各 EC2 UltraCluster は、世界で最も強力なスーパーコンピューターの 1 つです。これにより、お客様は最も複雑なマルチノード機械学習トレーニングと分散型 HPC ワークロードを実行できます。お客様は、機械学習または HPC プロジェクトのニーズに基づいて、EC2 UltraClusters で数個から数千個の NVIDIA A100 GPU に簡単にスケールできます。
研究者、データサイエンティスト、開発者は P4d インスタンスを使用して、自然言語処理、オブジェクトの検出と分類、レコメンデーションエンジンなどのユースケース向けに ML モデルをトレーニングできます。また、創薬、耐震分析、財務モデリングなどの HPC アプリケーションの実行にも使用できます。オンプレミスシステムとは異なり、お客様は、セットアップやメンテナンスに費用をかけずに、実質的に無制限のコンピューティングおよびストレージ容量にアクセスし、ビジネスニーズに基づいてインフラストラクチャをスケールし、マルチノード機械学習トレーニングジョブまたは緊密に結合された分散型 HPC アプリケーションを数分で起動できます。
新しい Amazon EC2 P4d インスタンスの発表
メリット
最新世代の NVIDIA A100 Tensor Core GPU を使用すると、各 Amazon EC2 P4d インスタンスは、前世代の P3 インスタンスと比較して平均 2.5 倍優れた深層学習パフォーマンスを実現します。P4d インスタンスの EC2 UltraClusters により、デベロッパー、データサイエンティスト、研究者は、初期費用や長期的なコミットメントなしでスーパーコンピューティングクラスのパフォーマンスを日常的に利用して、最も複雑な機械学習および HPC ワークロードを実行できます。P4d インスタンスによるトレーニング時間の短縮により生産性が向上し、デベロッパーは機械学習インテリジェンスをビジネスアプリケーションに組み込むというコアミッションに集中できます。
デベロッパーは、P4d インスタンスの EC2 UltraClusters を使用して、最大数千の GPU にシームレスに拡張できます。400 Gbps インスタンスネットワーキング、Elastic Fabric Adapter (EFA)、および GPUDirect RDMA テクノロジーをサポートする高スループット、低レイテンシーのネットワーキングは、スケールアウト/分散技術を使用して機械学習モデルを迅速にトレーニングするのに役立ちます。Elastic Fabric Adapter (EFA) は、NVIDIA Collective Communications Library (NCCL) を使用して数千の GPU に拡張し、GPUDirect RDMA テクノロジーにより、P4d インスタンス間の低レイテンシー GPU 間通信が可能になります。
Amazon EC2 P4d インスタンスは、P3 インスタンスと比較して機械学習モデルのトレーニングコストを最大 60% 削減します。さらに、P4d インスタンスはスポットインスタンスとして購入できます。スポットインスタンスは、未使用の EC2 インスタンスの容量を活用することで、Amazon EC2 のコストをオンデマンド料金の最大 90% まで節約できます。P4d インスタンスでの機械学習トレーニングのコストが低いため、予算を再割り当てして、より多くの機械学習インテリジェンスをビジネスアプリケーションに組み込むことができます。
AWS Deep Learning AMI (DLAMI)と Deep Learning コンテナには、必要な深層学習フレームワークライブラリとツールが含まれているため、P4d 深層学習環境を数分で簡単にデプロイできます。画像に独自のライブラリやツールを簡単に追加することもできます。P4d インスタンスは、TensorFlow、PyTorch、MXNet などの一般的な機械学習フレームワークをサポートしています。さらに、P4d インスタンスは、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch、AWS ParallelCluster など、機械学習、管理、オーケストレーション向けの主要な AWS のサービスでサポートされています。
特徴
NVIDIA A100 Tensor Core GPU は、機械学習およびハイパフォーマンスコンピューティング (HPC) 向けの高速化を前例のない規模で実現しています。NVIDIA A100 の第 3 世代 Tensor Core は、あらゆる精密ワークロードを加速し、インサイトを取得するまでの時間と市場投入までの時間を短縮します。各 A100 GPU は、前世代の V100 GPU と比較して 2.5 倍を超えるコンピューティングパフォーマンスを実現し、40GB HBM2 (P4d インスタンス) または 80GB HBM2e (P4de インスタンス) の高性能 GPU メモリを搭載しています。より高い GPU メモリは、高解像度の大規模なデータセットでトレーニングするワークロードに特に利点があります。NVIDIA A100 GPU は、NVSwitch GPU 相互接続スループットを活用するため、各 GPU は、同じ 600GB/秒の双方向スループットとシングルホップレイテンシーで同じインスタンス内の他のすべての GPU と通信できます。
P4d インスタンスは 400 Gbps ネットワーキングを提供し、P4d インスタンス間、および P4d インスタンスと Amazon Simple Storage Service (Amazon S3) や FSx for Lustre などのストレージサービス間のハイスループットネットワーキングにより、マルチノードトレーニングなどの分散型ワークロードをより効率的にスケールアウトできるようにします。Elastic Fabric Adapter (EFA) は、AWS が設計したカスタムネットワークインターフェイスであり、機械学習および HPC アプリケーションを数千の GPU に拡張するのに役立ちます。レイテンシーをさらに削減するために、EFA は NVIDIA GPUDirect RDMA と組み合わせて、OS バイパスを使用してサーバー間の低レイテンシーの GPU 間通信を可能にします。
お客様は、FSx for Lustre による PetaByte スケールの高スループット、低レイテンシーのストレージ、または 400 Gbps の速度で Amazon S3 を使用した実質的に無制限の費用効果の高いストレージにアクセスできます。大規模なデータセットへの高速アクセスが必要なワークロードの場合、各 P4d インスタンスには、16 ギガバイト/秒の読み取りスループットを備えた 8 TB NVMe ベースの SSD ストレージも含まれています。
P4d インスタンスは AWS Nitro System 上で構築されています。これは構築ブロックを豊富に取り揃えており、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高いパフォーマンス、可用性、セキュリティを実現します。
お客様の声
お客様とパートナーが Amazon EC2 P4 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。
トヨタ・リサーチ・インスティテュート (TRI)
トライアド
トライアド
GE Healthcare
HEAVY.AI
ゼノテック株式会社
Aon
Rad AI
製品の詳細
|
Instance Size
|
vCPUs
|
Instance Memory (GiB)
|
GPU – A100
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1152
|
8
|
320 GB
HBM2 |
400 ENA および EFA
|
はい
|
600GB/秒 NVSwitch
|
8 × 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1152
|
8
|
640 GB
HBM2e |
400 ENA および EFA
|
はい
|
600GB/秒 NVSwitch
|
8 × 1000 NVMe SSD
|
19
|
ML 用 P4d インスタンス入門
Amazon SageMaker は、ML モデルの構築、トレーニング、デプロイを行うためのフルマネージド型サービスです。Amazon EC2 P4d インスタンスと一緒に使用することで、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。クラスターやデータパイプラインを設定する必要はありません。
DLAMI は、ML の実務家や研究者に、クラウドで DL をあらゆる規模で加速するためのインフラストラクチャとツールを提供します。 Deep Learning Containersは、DLフレームワークがプリインストールされたDockerイメージです。これにより、環境をゼロから構築して最適化するという複雑なプロセスを省略できるため、カスタムML環境を迅速にデプロイしやすくなります。
HPC 用 P4d インスタンス入門
P4d インスタンスは、エンジニアリングシミュレーション、金融工学、地震分析、分子モデリング、ゲノミクス、レンダリングやその他の GPU ベースの HPC コンピューティングワークロードを実行するための理想的なプラットフォームです。HPC アプリケーションでは、通常、高いネットワークパフォーマンス、高速ストレージ、大容量メモリ、高いコンピューティング性能が必要になります。P4d インスタンスは EFA をサポートしています。これにより、Message Passing Interface (MPI) を使用する HPC アプリケーションを数千の GPU にスケールできます。AWS Batch と AWS ParallelCluster により、HPC デベロッパーは分散型 HPC アプリケーションを迅速に構築およびスケールできます。