Amazon SageMaker AI が推論用の P5e インスタンスと G6e インスタンスの提供開始を発表

投稿日: 2024年12月11日

推論に最適化された G6e インスタンス (NVIDIA L40S テンソルコア GPU を搭載) と P5e インスタンス (NVIDIA H200 テンソルコア GPU を搭載) の Amazon SageMaker での一般提供についてお知らせします。

8 基の NVIDIA H200 GPU、30 TB のローカル NVMe SSD ストレージ、192 個の vCPU、2 TiB のシステムメモリに 1128 GB の高帯域幅 GPU メモリを搭載した ml.p5e.48xlarge インスタンスは、100 億個以上のパラメータを持つ大規模言語モデル、マルチモーダル基盤モデル、合成データ生成、質問回答、コード生成、動画、画像の生成を含む複雑な生成 AI アプリケーションなど、計算量の多い AI 推論ワークロードで優れたパフォーマンスを発揮します。

1 つの GPU あたり 48 GB のメモリを搭載した 8 つの NVIDIA L40 Tensor Core GPU と、第 3 世代 AMD EPYC プロセッサを搭載した ml.g6e インスタンスは、ml.g5 インスタンスと比較して最大 2.5 倍のパフォーマンスを実現できます。ml.g6e インスタンスを使用して、最大 130 億個のパラメータを持つ大規模言語モデル (LLM) や、画像、動画、音声を生成するための拡散モデルに対して AI 推論を実行できます。

ml.p5e インスタンスと ml.g6e インスタンスが、米国東部 (オハイオ) と米国西部 (オレゴン) の SageMaker で使用できるようになりました。利用を開始するには、AWS Service Quotas を通じて制限の引き上げをリクエストしてください。これらのインスタンスの料金情報については、料金ページをご覧ください。SageMaker によるモデルのデプロイの詳細については、こちらの概要とこちらのドキュメントを参照してください。これらのインスタンス全般の詳細については、P5eG6e の製品ページをご覧ください。