メインコンテンツに移動

Amazon EC2

Amazon EC2 P4 インスタンス

クラウドでの機械学習トレーニングと HPC アプリケーションの最高のパフォーマンス

Amazon EC2 P4 インスタンスを使用すべき理由

Amazon Elastic Compute Cloud (Amazon EC2) P4d インスタンスは、クラウドでの機械学習 (ML) トレーニングとハイパフォーマンスコンピューティング (HPC) アプリケーションのために最高のパフォーマンスを実現します。P4d インスタンスは最新の NVIDIA A100 Tensor Core GPU を搭載しており、業界トップクラスの高スループットかつ低レイテンシーのネットワークを実現します。これらのインスタンスは 400 Gbps のインスタンスネットワーキングをサポートします。P4d インスタンスは、機械学習モデルのトレーニングのコストを最大 60% 削減します。また、前世代の P3 および P3dn インスタンスと比較して深層学習モデルのパフォーマンスが平均 2.5 倍向上します。

P4d インスタンスは Amazon EC2 UltraClusters と呼ばれるクラスターにデプロイされます。このクラスターは、クラウド内の高性能コンピューティング、ネットワーク、ストレージで構成されています。各 EC2 UltraCluster は、世界で最も強力なスーパーコンピューターの 1 つです。これにより、お客様は最も複雑なマルチノード機械学習トレーニングと分散型 HPC ワークロードを実行できます。お客様は、機械学習または HPC プロジェクトのニーズに基づいて、EC2 UltraClusters で数個から数千個の NVIDIA A100 GPU に簡単にスケールできます。

研究者、データサイエンティスト、開発者は P4d インスタンスを使用して、自然言語処理、オブジェクトの検出と分類、レコメンデーションエンジンなどのユースケース向けに ML モデルをトレーニングできます。また、創薬、耐震分析、財務モデリングなどの HPC アプリケーションの実行にも使用できます。オンプレミスシステムとは異なり、お客様は、セットアップやメンテナンスに費用をかけずに、実質的に無制限のコンピューティングおよびストレージ容量にアクセスし、ビジネスニーズに基づいてインフラストラクチャをスケールし、マルチノード機械学習トレーニングジョブまたは緊密に結合された分散型 HPC アプリケーションを数分で起動できます。

新しい Amazon EC2 P4d インスタンスの発表

メリット

    最新世代の NVIDIA A100 Tensor Core GPU を使用すると、各 Amazon EC2 P4d インスタンスは、前世代の P3 インスタンスと比較して平均 2.5 倍優れた深層学習パフォーマンスを実現します。P4d インスタンスの EC2 UltraClusters により、デベロッパー、データサイエンティスト、研究者は、初期費用や長期的なコミットメントなしでスーパーコンピューティングクラスのパフォーマンスを日常的に利用して、最も複雑な機械学習および HPC ワークロードを実行できます。P4d インスタンスによるトレーニング時間の短縮により生産性が向上し、デベロッパーは機械学習インテリジェンスをビジネスアプリケーションに組み込むというコアミッションに集中できます。

    デベロッパーは、P4d インスタンスの EC2 UltraClusters を使用して、最大数千の GPU にシームレスに拡張できます。400 Gbps インスタンスネットワーキング、Elastic Fabric Adapter (EFA)、および GPUDirect RDMA テクノロジーをサポートする高スループット、低レイテンシーのネットワーキングは、スケールアウト/分散技術を使用して機械学習モデルを迅速にトレーニングするのに役立ちます。Elastic Fabric Adapter (EFA) は、NVIDIA Collective Communications Library (NCCL) を使用して数千の GPU に拡張し、GPUDirect RDMA テクノロジーにより、P4d インスタンス間の低レイテンシー GPU 間通信が可能になります。

    Amazon EC2 P4d インスタンスは、P3 インスタンスと比較して機械学習モデルのトレーニングコストを最大 60% 削減します。さらに、P4d インスタンスはスポットインスタンスとして購入できます。スポットインスタンスは、未使用の EC2 インスタンスの容量を活用することで、Amazon EC2 のコストをオンデマンド料金の最大 90% まで節約できます。P4d インスタンスでの機械学習トレーニングのコストが低いため、予算を再割り当てして、より多くの機械学習インテリジェンスをビジネスアプリケーションに組み込むことができます。

    AWS Deep Learning AMI (DLAMI)と Deep Learning コンテナには、必要な深層学習フレームワークライブラリとツールが含まれているため、P4d 深層学習環境を数分で簡単にデプロイできます。画像に独自のライブラリやツールを簡単に追加することもできます。P4d インスタンスは、TensorFlow、PyTorch、MXNet などの一般的な機械学習フレームワークをサポートしています。さらに、P4d インスタンスは、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch、AWS ParallelCluster など、機械学習、管理、オーケストレーション向けの主要な AWS のサービスでサポートされています。

特徴

    NVIDIA A100 Tensor Core GPU は、機械学習およびハイパフォーマンスコンピューティング (HPC) 向けの高速化を前例のない規模で実現しています。NVIDIA A100 の第 3 世代 Tensor Core は、あらゆる精密ワークロードを加速し、インサイトを取得するまでの時間と市場投入までの時間を短縮します。各 A100 GPU は、前世代の V100 GPU と比較して 2.5 倍を超えるコンピューティングパフォーマンスを実現し、40GB HBM2 (P4d インスタンス) または 80GB HBM2e (P4de インスタンス) の高性能 GPU メモリを搭載しています。より高い GPU メモリは、高解像度の大規模なデータセットでトレーニングするワークロードに特に利点があります。NVIDIA A100 GPU は、NVSwitch GPU 相互接続スループットを活用するため、各 GPU は、同じ 600GB/秒の双方向スループットとシングルホップレイテンシーで同じインスタンス内の他のすべての GPU と通信できます。

    P4d インスタンスは 400 Gbps ネットワーキングを提供し、P4d インスタンス間、および P4d インスタンスと Amazon Simple Storage Service (Amazon S3) や FSx for Lustre などのストレージサービス間のハイスループットネットワーキングにより、マルチノードトレーニングなどの分散型ワークロードをより効率的にスケールアウトできるようにします。Elastic Fabric Adapter (EFA) は、AWS が設計したカスタムネットワークインターフェイスであり、機械学習および HPC アプリケーションを数千の GPU に拡張するのに役立ちます。レイテンシーをさらに削減するために、EFA は NVIDIA GPUDirect RDMA と組み合わせて、OS バイパスを使用してサーバー間の低レイテンシーの GPU 間通信を可能にします。

    お客様は、FSx for Lustre による PetaByte スケールの高スループット、低レイテンシーのストレージ、または 400 Gbps の速度で Amazon S3 を使用した実質的に無制限の費用効果の高いストレージにアクセスできます。大規模なデータセットへの高速アクセスが必要なワークロードの場合、各 P4d インスタンスには、16 ギガバイト/秒の読み取りスループットを備えた 8 TB NVMe ベースの SSD ストレージも含まれています。

    P4d インスタンスは AWS Nitro System 上で構築されています。これは構築ブロックを豊富に取り揃えており、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高いパフォーマンス、可用性、セキュリティを実現します。

お客様の声

お客様とパートナーが Amazon EC2 P4 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。

トヨタ・リサーチ・インスティテュート (TRI)

 

2015 年に設立されたトヨタ・リサーチ・インスティチュート (TRI) は、トヨタ向けの自動運転、ロボット工学、その他の知能増幅技術の開発に取り組んでいます。 
 
「TRIでは、誰もが自由に移動できる未来を築くよう取り組んでいます。前世代の P3 インスタンスにより、ML モデルのトレーニングにかかる時間を数日から数時間に短縮できました。P4d インスタンスの利用を楽しみにしています。GPU メモリが増え、float 形式がより効率的になったことで、機械学習チームはより複雑なモデルでもより速い速度でトレーニングできるようになったからです。「」
TRI インフラストラクチャエンジニアリング担当テクニカルリード、マイク・ギャリソン
Missing alt text value

トライアド

 

「TRI-ADでは、アダプティブ・ドライビングとスマートシティを活用して車両事故や死亡事故を減らすことに重点を置いて、誰もが自由に移動して探索できる未来の構築に取り組んでいます。Amazon EC2 P4d インスタンスを使用することで、既存のコードを変更することなく、オブジェクト認識のトレーニング時間を前世代の GPU インスタンスと比較して 40% 短縮できました。「」
 
TRI-AD 自動運転 (認識) 担当ディレクター稲田純也氏
Missing alt text value

トライアド

 

「Amazon EC2 P4d インスタンスを使用することで、前世代の GPU インスタンスと比較してトレーニングコストを即座に削減でき、モデルトレーニングに取り組むチームの数を増やすことができました。P4dのネットワークの改善により、数十のインスタンスに効率的に拡張できるようになりました。これにより、モデルを迅速に最適化、再トレーニング、テストカーやシミュレーション環境に展開して、さらなるテストを行うための機敏性が大幅に向上しました。」
 
TRI-AD インフラストラクチャエンジニアリング担当シニアディレクター、ジャック・ヤン氏
Missing alt text value

GE Healthcare

 

GE Healthcare は、世界をリードする医療技術およびデジタルソリューションの革新者です。GE Healthcare により、臨床医は、Edison インテリジェンスプラットフォームでサポートされているインテリジェントデバイス、データ分析、アプリケーション、およびサービスを利用して、より迅速で情報に基づいた意思決定を行うことができます。 
 
「GE Healthcareでは、データを集約し、そのデータにAIと分析を適用し、患者のアウトカムを改善し、効率を高め、エラーを排除するための洞察を発見するのに役立つツールを臨床医に提供しています。「当社の医用画像装置は大量のデータを生成し、データサイエンティストによる処理が必要です。以前の GPU クラスターでは、Progressive GAN などの複雑な AI モデルをシミュレーション用にトレーニングし、結果を確認するのに数日かかりました。新しい P4d インスタンスを使用すると、処理時間が数日から数時間に短縮されました。さまざまな画像サイズのモデルのトレーニング速度が2〜3倍向上した一方で、バッチサイズを増やすことでパフォーマンスが向上し、モデル開発サイクルが短縮されたことで生産性が向上しました。」
 
カーリー・ヨーダー、GM ヘルスケア人工知能担当副社長兼ゼネラルマネージャー
Missing alt text value

HEAVY.AI

 

HEAVY.AI は、高速分析のパイオニアです。HEAVY.AI プラットフォームは、主流の分析ツールの限界を超えるデータからの洞察を見つけるために、企業や政府機関で使用されています。
 
「HEAVY.AI では、データサイエンスと分析が融合してデータサイロを解消し融合する未来の構築に取り組んでいます。顧客は、場所や時間を含む膨大な量のデータを活用して、何が起こっているのかだけでなく、時空間データの詳細な視覚化を通じて、いつ、どこで起こっているのかを完全に把握できます。私たちの技術は森と木の両方を見ることを可能にします。「Amazon EC2 P4d インスタンスを使用することで、前世代の GPU インスタンスと比較して、プラットフォームをデプロイするためのコストを大幅に削減できたため、大規模なデータセットをコスト効率よくスケーリングできました。A100のネットワークの改善により、数十億行のデータへのスケーリング方法の効率が向上し、お客様はより迅速に洞察を得ることができるようになりました。」
 
レイ・ファルシオーネ、米国公共部門担当副社長、HEAVY.AI
Missing alt text value

ゼノテック株式会社

 

Zenotech Ltd は、HPC クラウドを使用してエンジニアリングをオンラインで再定義し、GPU を活用することで、オンデマンドのライセンスモデルを実現し、パフォーマンスを大幅に向上させています。 
 
「ゼノテックでは、設計者がより効率的で環境に優しい製品を開発できるようにするツールを開発しています。当社はさまざまな業界で働いており、当社のツールは大規模なシミュレーションを使用することで、より優れた製品パフォーマンスのインサイトを提供しています」と Zenotech のディレクターである Jamil Appa 氏は言います。「AWS P4d インスタンスを使用することで、前世代の GPU と比較して 3.5 倍高速にシミュレーションを実行できます。このスピードアップにより、解決にかかる時間が大幅に短縮され、お客様は設計をより早く市場に投入したり、以前よりも忠実度の高いシミュレーションを行ったりできるようになります。」
 
Zenotech、Director 兼共同創業者、Jamil Appa 氏
Missing alt text value

Aon

 

Aon は、幅広いリスク、退職、健康ソリューションを提供する世界有数の専門サービス会社です。Aon PathWise は、GPU ベースのスケーラブルな HPC リスク管理ソリューションです。保険会社と再保険会社、銀行、年金基金はこのソリューションを利用して、ヘッジ戦略のテスト、規制と経済の予測、予算編成などの今日直面している主要な課題に対処できます。 
 
「PathWise Solutions Group LLCの製品により、保険会社、再保険会社、年金基金が次世代テクノロジーにアクセスして、機械学習、ヘッジ戦略テスト、規制および財務報告、事業計画と経済予測、新製品の開発と価格設定など、今日の主要な保険課題を迅速に解決できます。「Amazon EC2 P4d インスタンスを使用することで、前世代の GPU インスタンスと比較して、最も要求の厳しい計算において単精度および倍精度の計算速度が驚くほど向上しました。これにより、クライアントは新しい範囲の計算と予測を初めて実行できるようになりました。スピードは重要です。AWS の新しいインスタンスのおかげで、私たちはお客様に有意義な価値と最新のテクノロジーを提供し続けています。」
 
Aon Pathwise Strategy and Technology Group、Global Head of Life Solutions、Van Beach 氏
Missing alt text value

Rad AI

 

放射線医学と人工知能の専門家で構成されるRad AIは、放射線科医の生産性を最大化する製品を開発し、最終的には医療をより広く利用しやすくし、患者の治療成績を向上させます。  ケーススタディを読んで詳細をご覧ください
 
「Rad AIの使命は、すべての人が医療を受けやすく、医療の質を高めることです。医用画像ワークフローに重点を置くことで、Rad AI は放射線科医の時間を節約し、疲弊を減らし、精度を高めています」と Rad AI の共同創設者である Doktor Gurson 氏は述べています。「当社は、AI を使用して放射線医療のワークフローを自動化し、放射線医療に関するレポートの合理化を支援しています。新しい EC2 P4d インスタンスでは、前世代の P3 インスタンスよりも高い精度で、推論が高速になり、モデルを 2.4 倍高速にトレーニングできるようになりました。これにより、より迅速で正確な診断が可能になり、米国全土のお客様が提供する高品質の放射線サービスへのアクセスが容易になります。」
 
Rad AI、共同創業者、Doktor Gurson 氏
Missing alt text value

製品の詳細

Instance Size
vCPUs
Instance Memory (GiB)
GPU – A100
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (GB)
EBS Bandwidth (Gbps)
p4d.24xlarge
96
1152
8
320 GB
HBM2
400 ENA および EFA
はい
600GB/秒 NVSwitch
8 × 1000 NVMe SSD
19
p4de.24xlarge
96
1152
8
640 GB
HBM2e
400 ENA および EFA
はい
600GB/秒 NVSwitch
8 × 1000 NVMe SSD
19

ML 用 P4d インスタンス入門

    Amazon SageMaker は、ML モデルの構築、トレーニング、デプロイを行うためのフルマネージド型サービスです。Amazon EC2 P4d インスタンスと一緒に使用することで、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。クラスターやデータパイプラインを設定する必要はありません。

    DLAMI は、ML の実務家や研究者に、クラウドで DL をあらゆる規模で加速するためのインフラストラクチャとツールを提供します。 Deep Learning Containersは、DLフレームワークがプリインストールされたDockerイメージです。これにより、環境をゼロから構築して最適化するという複雑なプロセスを省略できるため、カスタムML環境を迅速にデプロイしやすくなります。

HPC 用 P4d インスタンス入門

P4d インスタンスは、エンジニアリングシミュレーション、金融工学、地震分析、分子モデリング、ゲノミクス、レンダリングやその他の GPU ベースの HPC コンピューティングワークロードを実行するための理想的なプラットフォームです。HPC アプリケーションでは、通常、高いネットワークパフォーマンス、高速ストレージ、大容量メモリ、高いコンピューティング性能が必要になります。P4d インスタンスは EFA をサポートしています。これにより、Message Passing Interface (MPI) を使用する HPC アプリケーションを数千の GPU にスケールできます。AWS Batch と AWS ParallelCluster により、HPC デベロッパーは分散型 HPC アプリケーションを迅速に構築およびスケールできます。

詳細