Amazon SageMaker HyperPod でチェックポイントレストレーニングのサポートを開始
Amazon SageMaker HyperPod で、チェックポイントレストレーニングのサポートを開始しました。この新しい基盤モデルのトレーニング機能を使用すると、障害復旧のためにチェックポイントベースのジョブレベルの再起動を行う必要性を軽減できます。チェックポイントレストレーニングでは、障害が発生してもトレーニングの進行を維持するため、復旧にかかる時間が数時間から数分に短縮されます。これは、従来のチェックポイントベースの復旧からの根本的な転換となります。従来の方法では、障害発生時にトレーニングクラスター全体を一時停止し、問題を手動で診断し、保存されたチェックポイントから復旧を行う必要がありました。このプロセスでは、コストのかかる AI アクセラレータが何時間もアイドル状態になり、無駄なコンピューティングコストが発生する可能性があります。
チェックポイントレストレーニングでは、この従来の方法から脱却し、モデルトレーニングの状態を分散クラスター全体で維持し、障害のあるトレーニングノードをその場で自動的に交換して、正常なアクセラレータから状態をピアツーピアで転送して障害復旧を行います。 復旧時のチェックポイントへの依存が軽減されるため、組織はアイドル状態の AI アクセラレータのコストを節約し、トレーニングにかかる時間を短縮できます。大規模なトレーニングであっても、Amazon SageMaker HyperPod のチェックポイントレストレーニングにより、数千の AI アクセラレータを持つクラスター規模で 95% 以上のトレーニンググッドプットを実現できます。
SageMaker HyperPod のチェックポイントレストレーニングは、Amazon SageMaker HyperPod が利用可能なすべての AWS リージョンでご利用いただけます。 Llama や GPT OSS などの一般的な公開モデルで HyperPod レシピを使用すると、コード変更なしでチェックポイントレストレーニングを実行できます。カスタムモデルアーキテクチャの場合、PyTorch ベースのワークフローに最小限の変更を加えるだけで、チェックポイントレストレーニングのコンポーネントを統合できます。そのため、分散型トレーニングの専門知識がないチームでも使用できます。
使用を開始するには、Amazon SageMaker HyperPod の製品ページにアクセスしてください。実装ガイダンスについては、チェックポイントレストレーニングの GitHub ページをご覧ください。