Amazon EC2

Amazon EC2 P5 インスタンス

深層学習と HPC アプリケーション用のGPU ベースのハイパフォーマンスインスタンス

Amazon EC2 P5 インスタンスを使用すべき理由

NVIDIA H100 Tensor Core GPU を搭載した Amazon Elastic Compute Cloud (Amazon EC2) P5 インスタンスと、NVIDIA H200 Tensor Core GPU を搭載した P5e および P5en インスタンスは、深層学習 (DL) およびハイパフォーマンスコンピューティング (HPC) アプリケーションにおいて Amazon EC2 でハイパフォーマンスを発揮します。これらは、前世代の GPU ベースの EC2 インスタンスと比較してソリューション開発までの時間を最大で 4 分の 1 に短縮し、ML モデルのトレーニングコストを最大 40% 削減するのに役立ちます。これらのインスタンスは、より速いペースでソリューションをイテレーションし、より迅速に市場に投入するのに役立ちます。P5、P5e、P5en インスタンスは、生成 AI アプリケーションを強化する、複雑な大規模言語モデル (LLM) と拡散モデルのトレーニングやデプロイに使用できます。これらのアプリケーションには、質問応答、コード生成、動画と画像の生成、音声認識が含まれます。また、これらのインスタンスを使用して、創薬、耐震解析、天気予報、財務モデリングのために、HPC アプリケーションを大規模にデプロイすることもできます。

これらのパフォーマンス改善とコスト削減を実現するため、P5 および P5e インスタンスは、前世代の GPU ベースインスタンスと比較して、2 倍の CPU パフォーマンス、2 倍のシステムメモリ、4 倍のローカルストレージで NVIDIA H100 および H200 Tensor Core GPU を補完します。P5en インスタンスは NVIDIA H200 Tensor Core GPU と高性能 Intel Sapphire Rapids CPU を組み合わせて、CPU と GPU 間で Gen5 PCIe を利用した高速な通信を実現します。P5en インスタンスは、P5e および P5 インスタンスと比較して CPU と GPU 間の帯域幅が最大 4 倍になり、ネットワークレイテンシーが低くなるため、分散型トレーニングのパフォーマンスが向上します。P5 および P5e インスタンスのサポートにより、第 2 世代の Elastic Fabric Adapter (EFA) を使用した最大 3,200 Gbps のネットワーキングが可能になります。Nitro v5を使用する第 3 世代の EFA を搭載した P5en では、前世代の EFA と Nitro を使用する P5 と比較して、レイテンシーが最大 35％向上しています。これにより、深層学習、生成 AI、リアルタイムデータ処理、ハイパフォーマンスコンピューティング (HPC) アプリケーションなどの分散トレーニングワークロードで集団通信のパフォーマンス向上に役立ちます。大規模なコンピューティングを低レイテンシーで提供するために、これらのインスタンスは Amazon EC2 UltraClusters にデプロイされます。これにより、ペタビット級のノンブロッキングネットワークで相互接続された H100 または H200 GPU を 20,000 個まで拡張できます。EC2 UltraClusters の P5、P5e、P5en インスタンスは、合計で最大 20 エクサフロップスのコンピューティング能力 (スーパーコンピュータと同等のパフォーマンス) を提供できます。

Amazon EC2 P5 インスタンス

メリット

P5、P5e、P5en インスタンスは、大きな生成 AI モデルを大規模にトレーニングでき、前世代の GPU ベースの EC2 インスタンスと比較して、最大 4 倍のパフォーマンスを提供します。

P5、P5e、P5en インスタンスは、トレーニング時間とソリューションを生み出すまでの時間を、数週間からわずか数日に短縮します。これは、より速いペースでイテレーションし、より迅速に市場に投入するのに役立ちます。

P5、P5e、P5en インスタンスは、前世代の GPU ベースの EC2 インスタンスと比較して、DL トレーニングと HPC インフラストラクチャのコストで最大 40% のコスト削減を提供します。

P5、P5e、P5en インスタンスは、最大 3,200 Gbps の EFA ネットワーキングを提供します。これらのインスタンスは EC2 UltraClusters にデプロイされ、合計 20 エクサフロップスのコンピューティング能力を提供します。

特徴

P5 インスタンスは、合計で最大 640 GB の HBM3 GPU メモリを備えた最大 8 個の NVIDIA H100 GPU (インスタンスあたり) を搭載しています。P5e および P5en インスタンスは、合計で最大 1,128 GB の HBM3e GPU メモリを備えた最大 8 個の NVIDIA H200 GPU (インスタンスあたり) を搭載しています。両方のインスタンスは、最大 900 GB/秒の NVSwitch GPU インターコネクト (各インスタンスで合計 3.6 TB/秒の二分バンド幅) をサポートしているため、各 GPU は同じインスタンス内の他のすべての GPU とシングルホップレイテンシーで通信できます。

NVIDIA H100 および H200 GPU には、FP8 と 16 ビット計算をインテリジェントに管理して動的に選択するトランスフォーマーエンジンが搭載されています。前世代の A100 GPU と比較すると、この機能により、LLM での DL トレーニングがさらに高速化されます。HPC ワークロード向けに、NVIDIA H100 および H200 GPU には、A100 GPU と比較して動的プログラミングアルゴリズムをさらに加速させる新しい DPX 命令が備わっています。

P5、P5e、P5en インスタンスは、最大 3,200 Gbps の EFA ネットワーキングを提供します。また、EFA を NVIDIA GPUDirect RDMA と組み合わせると、オペレーティングシステムバイパスによりサーバー間の低レイテンシーの GPU 間通信も可能になります。

P5、P5e、P5en インスタンスは Amazon FSx for Lustre ファイルシステムをサポートしているため、大規模な DL および HPC ワークロードに必要な数百 GB/秒のスループットと数百万 IOPS でデータにアクセスできます。それぞれのインスタンスは、最大 30 TB のローカル NVMe SSD ストレージもサポートし、大規模なデータセットへの高速アクセスを実現します。また、Amazon Simple Storage Service (Amazon S3) では、費用対効果の高いストレージを事実上無制限に使用できます。

お客様の声

お客様とパートナーが Amazon EC2 P4 インスタンスを使用してビジネス目標を達成した例をいくつかご紹介します。

Anthropic

Anthropic では、信頼性が高く、解釈可能で、操作可能な AI システムの構築に取り組んでいます。今日の大規模な汎用 AI システムには大きなメリットがある一方で、予測不可能で、信頼性が低く、不透明である場合もあります。私たちの目標は、これらの問題を進展させ、人々が役立つと考えるシステムを導入することです。私たちの組織は、DL 研究の基盤となるモデルを構築している世界でも数少ない組織の 1 つです。これらのモデルは非常に複雑であるため、こうした最先端のモデルを開発してトレーニングするには、大規模な GPU クラスターに効率的に分散させる必要があります。現在、Amazon EC2 P4 インスタンスを幅広く使用しており、P5 インスタンスのリリースを心待ちにしています。P4d インスタンスに比べてコストパフォーマンス面での大きな利点をもたらし、次世代 LLM や関連製品の構築に必要となる大きな規模で利用できるようになることを期待しています。

Anthropic、共同創設者、Tom Brown 氏

AON

AON では、保険会社が複雑な計算の課題に取り組む方法を革新してきました。保険数理の予測では、複雑な金融リスクと債務保証をモデル化するためにより多くのシミュレーションが必要となりますが、切断されたレガシーシステムやエラーが発生しやすい手動タスクでは、詳細で厳密な分析を行うことが困難です。Amazon EC2 P5 インスタンスは当社にとって革新的でした。以前は何日もかかっていた機械学習モデルや景気予測を、ほんの数時間で実行できるようになりました。単一の H100 GPU インスタンス (p5.4xlarge) を使用できるということは、時間を節約できるだけでなく、計算リソースを最適化できるということです。当社のクライアントは、この画期的なテクノロジーのおかげで、リスク管理と製品価格設定に関する前例のないインサイトを得ています。

AON、Global Head of Life Solutions、Van Beach 氏

Cohere

Cohere は、すべての企業が言語 AI の力を利用して、自然で直感的な態様で情報を探索、生成、検索し、それに基づいて行動できるようサポートし、それぞれのお客様にとって最適なデータ環境で複数のクラウドプラットフォームにデプロイする点で業界をリードしています。NVIDIA H100 を搭載した Amazon EC2 P5 インスタンスは、そのコンピューティング能力を Cohere の最先端の LLM 機能や生成 AI 機能と組み合わせることで、企業がより迅速に創造、成長、スケールする能力を解き放ちます。

Cohere、CEO、Aidan Gomez 氏

Hugging Face

ML のオープンソースコミュニティとして急成長している当社は現在、NLP、コンピュータビジョン、生物学、強化学習などのプラットフォーム上で、150,000 超の事前トレーニング済みモデルと 25,000 超のデータセットを提供しています。LLM と生成 AI が大幅に進歩した今、私たちは AWS と協働して明日のオープンソースモデルを構築し、提供しています。Amazon SageMaker を介して、EFA を備えた UltraClusters で Amazon EC2 P5 インスタンスを大規模に使用し、すべてのユーザーのために新しい基盤 AI モデルの配信を加速できることを楽しみにしています。

Hugging Face、CTO 兼共同創設者、Julien Chaumond 氏

製品の詳細

Instance Size	vCPUs	Instance Memory	GPU	GPU memory	Network Bandwidth (Gbps)	GPUDirect RDMA	GPU Peer to Peer	Instance Storage (TB)	EBS Bandwidth (Gbps)
p5.4xlarge	16	256 GiB	1 H100	80 GB HBM3	100 Gbps EFA	いいえ*	該当しない*	3.84 NVMe SSD	10
p5.48xlarge	192	2 TiB	8 H100	640 GB HBM3	3,200 Gbps EFA	はい	900 GB/秒 NVSwitch	8 x 3.84 NVMe SSD	80
p5e.48xlarge	192	2 TiB	8 H200	1,128 GB HBM3e	3,200 Gbps EFA	はい	900 GB/秒 NVSwitch	8 x 3.84 NVMe SSD	80
p5en.48xlarge	192	2 TiB	8 H200	1128 GB HBM3e	3,200 Gbps EFA	はい	900 GB/秒 NVSwitch	8 x 3.84 NVMe SSD	100

*GPUDirect RDMA は P5.4xlarge ではサポートされていません

ML の開始方法のユースケース

SageMaker は、ML モデルを構築、トレーニング、デプロイするためのフルマネージドサービスです。SageMaker HyperPod を使用すると、設定を気にすることなく、クラスターの回復力のあるトレーニングを管理することなく、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。

DLAMI は、その規模を問わず、クラウドで DL を加速するためのインフラストラクチャとツールを ML の実践者と研究者に提供します。 Deep Learning Containers は、深層学習フレームワークがプリインストールされた Docker イメージであり、環境の構築と最適化をゼロから行う複雑なプロセスをスキップして、カスタム ML 環境のデプロイを合理化します。

コンテナオーケストレーションサービスを通じて独自のコンテナ化されたワークロードを管理したい場合は、Amazon EKS または Amazon ECS を利用して P5、P5e、P5en インスタンスをデプロイできます。

HPC の開始方法のユースケース

P5、P5e、P5en インスタンスは、エンジニアリングシミュレーション、金融工学、地震分析、分子モデリング、ゲノミクス、レンダリング、およびその他の GPU ベースの HPC ワークロードを実行するための理想的なプラットフォームです。HPC アプリケーションでは、通常、高いネットワークパフォーマンス、高速ストレージ、大容量メモリ、高いコンピューティング性能が必要になります。3 つのインスタンスタイプはすべて、Message Passing Interface (MPI) を使用する HPC アプリケーションを数千の GPU に拡張できるようにする EFA をサポートしています。AWS Batch と AWS ParallelCluster により、HPC デベロッパーは分散型 HPC アプリケーションを迅速に構築およびスケールできます。

詳細

AWS の使用を開始する

ステップ 1 – AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。

詳細

ステップ 2 – 10 分間のチュートリアルで学ぶ

簡単なチュートリアルで調べて学ぶことができます。

詳細

ステップ 3 – AWS で構築を開始する

AWS プロジェクトを起動するのに役立つステップごとのガイドを使用して構築を開始します。

詳細

Amazon EC2 P5 インスタンス

Amazon EC2 P5 インスタンスを使用すべき理由

Amazon EC2 P5 インスタンス

メリット

1,000 億を超えるパラメータモデルを大規模にトレーニング

ソリューションを生み出すまでの時間を短縮し、イテレーションを迅速化

DL と HPC インフラストラクチャのコストを削減

エクサスケールコンピューティングを利用して分散型トレーニングと HPC を実行

特徴

NVIDIA H100 および H200 Tensor Core GPU

新しいトランスフォーマーエンジンと DPX 命令

高性能ネットワーク

高性能ストレージ

お客様の声

Anthropic

AON

Cohere

Hugging Face

製品の詳細

ML の開始方法のユースケース

SageMaker の使用

DLAMI または Deep Learning Containers の使用

Amazon EKS または Amazon ECS の使用

HPC の開始方法のユースケース

AWS の使用を開始する

ステップ 1 – AWS アカウントにサインアップする

ステップ 2 – 10 分間のチュートリアルで学ぶ

ステップ 3 – AWS で構築を開始する

学ぶ

リソース

デベロッパー

ヘルプ