Amazon SageMaker HyperPod がライフサイクルスクリプトのデバッグ機能を強化

投稿日: 2026年1月21日

Amazon SageMaker HyperPod で、ライフサイクルスクリプトに関するトラブルシューティング機能が強化され、クラスターノードのプロビジョニング中の問題の特定と解決が容易になりました。SageMaker HyperPod は、AI/ML ワークロードを実行したり、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端モデルを開発したりするための耐障害性の高いクラスターをプロビジョニングするのに役立ちます。

クラスターの作成中やノードの操作中にライフサイクルスクリプトで問題が発生した場合、詳細なエラーメッセージが表示され、ライフサイクルスクリプトに関する実行ログが含まれる特定の CloudWatch ロググループとログストリーム名が提示されるようになりました。これらのエラーメッセージを参照するには、DescribeCluster API を実行するか、SageMaker コンソールでクラスター詳細ページを表示します。このコンソールには [View lifecycle script logs] ボタンもあり、関連する CloudWatch ログストリームに直接移動してログを簡単に見つけることができます。さらにライフサイクルスクリプトに関する CloudWatch ログに、ライフサイクルスクリプトの実行状況の追跡に役立つ特定のマーカーが含められるようになりました。その中には、ライフサイクルスクリプトのログが開始された時点、スクリプトのダウンロードが開始した時点、ダウンロードが完了した時点、スクリプトが成功または失敗した時点を示す指標などがあります。これらのマーカーは、プロビジョニングのプロセス中に問題が発生した場所をすばやく特定するのに役立ちます。これらの機能強化により、ライフサイクルスクリプトの失敗の診断と修正に要する時間が短縮され、HyperPod クラスターの稼働までに要する時間も短縮できます。

この機能は、Amazon SageMaker HyperPod がサポートされているすべての AWS リージョンで利用できます。詳細については、Amazon SageMaker デベロッパーガイドの「SageMaker HyperPod cluster management」を参照してください。