投稿日: Aug 4, 2023

Amazon SageMaker トレーニングジョブは、NVIDIA H100 チップを搭載した ml.p5 インスタンスをサポートするようになりました。これは、クラウドでの高性能 ML トレーニングアプリケーション用に開発されたインスタンスです。SageMaker で ml.p5 インスタンスを使用すると、最も要件の厳しいモデルをトレーニングできます。その中には、最も要件の厳しい生成 AI アプリケーションを強力にサポートする大規模言語モデル (LLM) や拡散モデルが含まれます。これらのアプリケーションには、質問応答、コード生成、動画と画像の生成、および音声認識が含まれます。

現在 ml.p5 インスタンスには、最新の NVIDIA H100 Tensor コア GPU が最大 8 つ搭載されています。前世代の GPU ベースのインスタンスと比較して、P5 インスタンスは 2 倍の CPU パフォーマンス、2 倍のシステムメモリ、4 倍のローカルストレージを備えた NVIDIA H100 Tensor コア GPU を補完します。第 2 世代の Elastic Fabric Adapter (EFA) テクノロジーを使用した最大 3,200 Gbps のネットワーキングにより、分散型トレーニングや密結合された HPC ワークロード向けの、市場をリードするスケールアウト機能を提供します。

本日より、SageMaker モデルトレーニングは、AWS 米国東部 (バージニア北部) と米国西部 (オレゴン) リージョンで ml.p5.48xlarge サイズの ml.p5 インスタンスのサポートを開始します。

ml.p5 インスタンスの詳細については、P5 インスタンスのページをご覧ください。ml.p5 インスタンスの使用を開始するには、Amazon SageMaker コンソールにサインインしてください。Amazon SageMaker モデルトレーニングの詳細については、AWS のウェブページをご覧ください。