Amazon SageMaker HyperPod のエラスティックトレーニングのご紹介

投稿日: 2025年12月3日

Amazon SageMaker HyperPod で、エラスティックトレーニングのサポートを開始しました。このトレーニングでは、リソースの可用性とワークロードの優先順位に基づいてトレーニングワークロードが自動的にスケールされるため、基盤モデルのトレーニングにかかる時間を短縮できます。これにより、固定されたリソースセットを使用するトレーニングから根本的に転換し、コンピューティングの可用性に基づくトレーニングジョブの再設定に費やしていたエンジニアリング時間を節約できます。

これまでは、コンピューティングの可用性に変化が生じた場合、手動でトレーニングを停止し、トレーニングパラメータを再設定して、ジョブを再開する必要がありました。このプロセスでは、分散型トレーニングの専門知識が必要となるほか、トレーニングジョブの再設定時にコストの高い AI アクセラレータがアイドル状態のままになります。エラスティックトレーニングでは、トレーニングジョブを自動的に拡張してアイドル状態の AI アクセラレータを吸収し、優先度の高いワークロードにリソースが必要な場合は、シームレスにトレーニングを縮小します。これらはすべて、トレーニングを完全に停止することなく行われます。

手動による再設定のオーバーヘッドがなくなり、利用可能なコンピューティングを継続的に活用できるようになるため、これまでインフラストラクチャ管理に費やしていた時間を節約できます。また、クラスターの使用率を最大限に高めてコストを削減し、市場投入までの時間を短縮できます。最小限のリソースでトレーニングをすぐに開始して、キャパシティが使用可能になったら必要に応じてトレーニングを拡張できます。

SageMaker HyperPod のエラスティックトレーニングは、Amazon SageMaker HyperPod が利用可能なすべてのリージョンでご利用いただけます。Llama や GPT OSS などの公開モデルで HyperPod レシピを使用すると、コード変更なしでエラスティックトレーニングを実行できます。カスタムモデルアーキテクチャの場合、設定をわずかに更新し、最小限のコード変更を行うだけでエラスティックトレーニング機能を統合できるため、分散型システムの専門知識がないチームでも使用できます。

使用を開始するには、Amazon SageMaker HyperPod の製品ページにアクセスしてください。実装ガイダンスについては、エラスティックトレーニングのドキュメントをご覧ください。