Amazon SageMaker HyperPod 向けにマネージド型の階層化されたチェックポイント作成機能を発表

投稿日: 2025年9月8日

本日 Amazon Web Service (AWS) は、Amazon SageMaker HyperPod 向けに、マネージド型の階層化されたチェックポイント作成機能の一般提供を発表しました。これは、モデルの復旧時間を短縮し、トレーニングの進捗状況の損失を最小限に抑えるように設計された新機能です。AI トレーニングの規模が拡大するにつれて、インフラストラクチャに障害が発生する可能性が高まるため、効率よくチェックポイントを作成することが重要になります。従来のチェックポイント作成方法は、特に大規模なモデルでは、時間がかかり、リソースを大量に消費する場合があります。SageMaker HyperPod のマネージド型の階層化されたチェックポイント作成機能は、CPU メモリを使用してチェックポイントを頻繁に保存して迅速な復旧を可能にすると同時に、データを定期的に Amazon S3 に保存して長期的な耐久性を確保することで、そうした問題に対処します。このハイブリッドアプローチによって、トレーニングの損失を最小限に抑え、障害発生後にトレーニングを再開するまでの時間を大幅に短縮できます。

マネージド型の階層化されたチェックポイント作成機能を利用することで、大規模クラスターにおいて高いスループットかつ信頼性の高い方法でトレーニングを行うことができます。このソリューションでは、インメモリ階層と永続ストレージ階層の両方においてチェックポイントの作成頻度と保存ポリシーを設定できます。メモリに頻繁に保存することで、ストレージコストを最小限に抑えながら迅速に復旧できます。この新機能は PyTorch の分散チェックポイント機能 (DCP) と連携しているため、ユーザーはインメモリストレージのパフォーマンス上の利点を得ながら、わずか数行のコードでチェックポイント作成機能を簡単に実装できます。

この機能は現在、EKS オーケストレーターを使用する SageMaker HyperPod クラスターで使用できます。ユーザーは、CreateCluster または UpdateCluster API を使用して HyperPod クラスターを作成または更新するときに API パラメータを指定することで、マネージド型の階層化されたチェックポイント作成機能を有効にできます。チェックポイント作成機能を有効にした後は、sagemaker-checkpointing Python ライブラリを使用して、トレーニングスクリプトのコードに最小限の変更を加えるだけで、マネージド型の階層化チェックポイント作成機能を実装できます。

マネージド型の階層化チェックポイント作成機能は、SageMaker HyperPod が現在利用可能なすべてのリージョンで利用できます。詳細については、ブログ投稿ドキュメントを参照してください。