最新の NVIDIA H100 Tensor Core GPU を搭載した Amazon Elastic Compute Cloud (Amazon EC2) P5 インスタンスは、深層学習 (DL) およびハイパフォーマンスコンピューティング (HPC) アプリケーションにおいて Amazon EC2 で最高のパフォーマンスを発揮します。前世代の GPU ベースの EC2 インスタンスと比べて、ソリューションまでの時間が最大 4 倍短縮され、ML モデルのトレーニングコストが最大 40% 削減されます。P5 インスタンスは、より速いペースでソリューションを反復処理し、より迅速に市場に投入するのに役立ちます。P5 インスタンスは、最も要求の厳しい生成系人工知能 (AI) アプリケーションを強化する、ますます複雑化する大規模言語モデル (LLM) や拡散モデルのトレーニングやデプロイに使用できます。これらのアプリケーションには、質問応答、コード生成、動画と画像の生成、および音声認識が含まれます。また、P5 インスタンスを使用して、医薬品開発、耐震解析、天気予報、財務モデリングなどの要求の厳しい HPC アプリケーションを大規模にデプロイすることもできます。
こうしたパフォーマンス向上とコスト削減を実現するため、P5 インスタンスは、前世代の GPU ベースインスタンスと比較して、2 倍の CPU パフォーマンス、2 倍のシステムメモリ、および 4 倍のローカルストレージで NVIDIA H100 Tensor Core GPU を補完します。第 2 世代の Elastic Fabric Adapter (EFAv2) を使用した最大 3,200 Gbps のネットワーキングにより、分散型トレーニングや密結合された HPC ワークロード用の、市場をリードするスケールアウト機能を提供します。大規模なコンピューティングを低レイテンシーで実現するために、P5 インスタンスは Amazon EC2 UltraClusters にデプロイされ、最大 20,000 個の H100 GPU までスケーリングできるようになっています。P5 インスタンスは、ペタビット規模のノンブロッキングネットワークで相互接続されています。EC2 UltraClusters の P5 インスタンスでは、合計で最大 20 エクサフロップスのコンピューティング能力 (スーパーコンピュータと同等のパフォーマンス) が提供されます。
将来の使用に備えて P5 インスタンスを今すぐ予約しましょう
Amazon EC2 Capacity Blocks for ML では、P5 インスタンスを最大 8 週間前まで簡単に予約できます。P5 インスタンスは 1~14 日の期間にわたり 1~64 インスタンス (512 GPU) のクラスターサイズで予約できるため、さまざまなワークロードを柔軟に実行できます。
メリット
1,000 億を超えるパラメータモデルを大規模にトレーニング
P5 インスタンスでは超大規模の生成系 AI モデルの大規模なトレーニングが可能で、前世代の GPU ベースの EC2 インスタンスと比べて、パフォーマンスが最大 4 倍向上しています。
ソリューションまでの時間を短縮し、反復処理を迅速化
P5 インスタンスでは、トレーニング時間とソリューションまでの時間が、数週間からわずか数日に短縮されます。これにより、より速いペースでの反復処理と、より迅速な市場への投入が可能になります。
DL と HPC インフラストラクチャのコストを削減
P5 インスタンスでは、前世代の GPU ベースの EC2 インスタンスと比較して、DL トレーニングと HPC インフラストラクチャのコストを最大 40% 削減できます。
エクサスケールコンピューティングによる分散型トレーニングと HPC の実行
P5 インスタンスでは、最大 3,200 Gbps の EFAv2 ネットワーキングが提供されます。これらのインスタンスは EC2 UltraClusters にデプロイされ、合計 20 エクサフロップスのコンピューティング能力が提供されます。
特徴
NVIDIA H100 Tensor Core GPU
P5 インスタンスは、合計で最大 640 GB の HBM3 GPU メモリを備えた最大 8 個の NVIDIA H100 GPU (1 インスタンスあたり) を搭載しています。P5 インスタンスは、最大 900 GB/秒の NVSwitch GPU インターコネクト (各インスタンスで合計 3.6 TB/秒 の二分バンド幅) をサポートしているため、各 GPU は同じインスタンス内の他のすべての GPU とシングルホップレイテンシーで通信できます。
新しいトランスフォーマーエンジンと DPX 命令
NVIDIA H100 GPU には、FP8 と 16 ビット計算をインテリジェントに管理して動的に選択する新しいトランスフォーマーエンジンが搭載されています。前世代の A100 GPU と比較してみると、この機能により、LLM での DL トレーニングがさらに高速化されています。HPC ワークロード用として、NVIDIA H100 GPU には、A100 GPU と比較して動的プログラミングアルゴリズムをさらに加速させる新しい DPX 命令が搭載されています。
ハイパフォーマンスネットワーキング
P5 インスタンスでは、最大 3,200 Gbps の EFAv2 ネットワーキングが提供されます。EFAv2 では、分散型トレーニングのワークロードにおける集団通信性能が最大 50% 向上します。また、EFAv2 を NVIDIA GPUDirect RDMA と組み合わせると、オペレーティングシステムバイパスによりサーバー間の低レイテンシーの GPU 間通信も可能になります。
ハイパフォーマンスストレージ
P5 インスタンスは Amazon FSx for Lustre ファイルシステムをサポートしているため、大規模な DL および HPC ワークロードに必要な数百 GB/秒のスループットと数百万の IOPS でデータにアクセスできます。それぞれの P5 インスタンスは、最大 30 TB のローカル NVMe SSD ストレージもサポートし、大規模なデータセットへの高速アクセスを実現します。また、Amazon Simple Storage Service (Amazon S3) では、費用対効果の高いストレージを事実上無制限に使用できます。
第 2 世代 EC2 UltraClusters
P5 インスタンスは、第 2 世代 EC2 UltraClusters にデプロイされます。この UltraClusters は、前世代の UltraClusters よりも大規模なスケール、少ないネットワークホップ数 (クラスター全体で)、および低減されたレイテンシーを可能にするネットワークファブリックを提供します。UltraClusters の P5 インスタンスでは、ペタビット規模のネットワークで相互接続された H100 GPU を最大 20,000 個までスケールできるため、合計 20 エクサフロップスのコンピューティング能力が提供されます。
他の AWS サービスとのシームレスな統合
P5 インスタンスのデプロイには、AWS Deep Learning AMI (DLAMI) と AWS Deep Learning Containers を使用します。これらは、Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS Batch などのマネージドサービスを通じて利用できます。
お客様事例
Anthropic は信頼性が高く、解釈可能で、操作可能な AI システムを構築し、このシステムを通じて商業面だけでなく公共の利益のために価値を創造する多くの機会を提供します。
「Anthropic では、信頼性が高く、解釈可能で、操作可能な AI システムの構築に取り組んでいます。今日の大規模な汎用 AI システムには大きなメリットがある一方で、予測不可能で、信頼性が低く、不透明である可能性もあります。私たちの目標は、これらの問題を進展させ、人々が役立つと考えるシステムを導入することです。私たちの組織は、DL 研究の基盤となるモデルを構築している世界でも数少ない組織の 1 つです。これらのモデルは非常に複雑であるため、こうした最先端のモデルを開発してトレーニングするには、大規模な GPU クラスターに効率的に分散させる必要があります。現在、Amazon EC2 P4 インスタンスを幅広く使用しており、P5 インスタンスのリリースを心待ちにしています。P4d インスタンスに比べてコストパフォーマンス面での大きなメリットがあり、次世代 LLM や関連製品の構築に必要な大規模なスケールで利用できるようになることを期待しています」。
Anthropic、共同創設者、Tom Brown 氏
言語 AI のリーディングパイオニアである Cohere は、すべての開発者と企業が、データのプライバシーと安全性を維持しながら、世界をリードする自然言語処理 (NLP) テクノロジーを備えた素晴らしい製品を構築できるよう支援しています。
「Cohere は、すべての企業が言語 AI の力を利用して、自然で直感的な方法で情報を探索、生成、検索し、それに基づいて行動できるよう支援し、顧客それぞれにとって最適なデータ環境で複数のクラウドプラットフォームにデプロイするという点で業界をリードしています。NVIDIA H100 を搭載した Amazon EC2 P5 インスタンスは、そのコンピューティング能力を Cohere の最先端の LLM 機能や生成系 AI 機能と組み合わせることで、企業がより迅速に創造、成長、拡張を遂げる能力を解放します」。
Cohere、CEO、Aidan Gomez 氏
Hugging Face のミッションは、良質な ML を民主化することです。
「ML のオープンソースコミュニティとして急成長している当社は、現在、NLP、コンピュータービジョン、生物学、強化学習などのプラットフォーム上で、150,000 を超える事前トレーニング済みモデルと 25,000 以上のデータセットを提供しています。LLM と生成系 AI が大幅に進歩した今、私たちは AWS と協働して明日のオープンソースモデルを構築し、提供しています。Amazon SageMaker を介して、Amazon EC2 P5 インスタンスを EFA を使った UltraClusters で大規模に使用し、すべての人への新しい基盤 AI モデルの配信を加速させることを楽しみにしています」。
Hugging Face、CTO 兼共同創設者、Julien Chaumond 氏
製品の詳細
インスタンスサイズ | vCPU | インスタンスメモリ (TiB) | GPU – H100 | GPU メモリ | ネットワーク帯域幅 | GPUDirectRDMA | GPU ピアツーピア | インスタンスストレージ (TB) | EBS 帯域幅 (Gbps) |
p5.48xlarge |
192 |
2 |
8 |
640 GB HBM3 |
3200 Gbps EFAv2 |
有 |
900 GB/秒 NVSwitch |
8 x 3.84 NVMe SSD |
80 |
*提示されている料金は、米国東部 (バージニア北部) AWS リージョン内で使用される Linux/Unix に対する料金で、1 セント未満は四捨五入しています。料金の詳細については、「Amazon EC2 料金」を参照してください。
ML 用 P5 インスタンスの開始方法
SageMaker を使用する
SageMaker は、ML モデルを構築、トレーニング、およびデプロイするためのフルマネージド型サービスです。P5 インスタンスと一緒に使用すると、クラスターやデータパイプラインの設定を気にすることなく、数十、数百、数千の GPU に簡単にスケールし、あらゆる規模でモデルを迅速にトレーニングできます。
DLAMI または Deep Learning Containers を使用する
DLAMI は、ML の専門家と研究者を対象に、クラウドであらゆる規模の DL を加速させるためのインフラストラクチャとツールを提供します。Deep Learning Containers は、深層学習フレームワークがプリインストールされた Docker イメージであり、環境の構築と最適化をゼロから行う面倒なプロセスをスキップして、カスタムの機械学習環境のデプロイを合理化します。
Amazon EKS または Amazon ECS を使用する
コンテナオーケストレーションサービスを通じて独自のコンテナ化されたワークロードを管理したい場合は、Amazon EKS または Amazon ECS を使用して P5 インスタンスをデプロイしてください。
HPC 用 P5 インスタンスの開始方法
P5 インスタンスは、エンジニアリングシミュレーション、金融工学、地震分析、分子モデリング、ゲノミクス、レンダリングおよびその他の GPU ベースの HPC ワークロードを実行するための理想的なプラットフォームです。HPC アプリケーションでは、通常、高いネットワークパフォーマンス、高速ストレージ、大容量メモリ、高いコンピューティング性能が必要になります。P5 インスタンスは EFAv2 をサポートしています。これにより、Message Passing Interface (MPI) を使用する HPC アプリケーションを数千の GPU にスケールできます。AWS Batch と AWS ParallelCluster により、HPC デベロッパーは分散型 HPC アプリケーションを迅速に構築およびスケールできます。
詳細 »
AWS の開始方法
AWS アカウントにサインアップする
AWS 無料利用枠には、すぐにアクセスできます。
10 分間のチュートリアルで学ぶ
簡単なチュートリアルで学習します。
コンソールで構築を開始する
ステップバイステップガイドに従って構築を開始すれば、AWS プロジェクトを立ち上げることができます。