Amazon SageMaker HyperPod が AI コーディングアシスタント向けのトラブルシューティングスキルを提供するようになりました
Amazon SageMaker HyperPod が、エキスパートレベルの AI/ML クラスター診断を Claude Code、Cursor、Kiro などの AI コーディングアシスタントで直接利用できるようにするトラブルシューティングスキルを提供するようになりました。SageMaker HyperPod は、基盤モデルを大規模に開発、トレーニング、デプロイするための専用インフラストラクチャです。組み込みの耐障害性とクラスターの自動復旧を備えた、回復力のある高性能環境を提供し、大規模な AI/ML インフラストラクチャの管理に伴う、画一的で面倒な作業を減らします。HyperPod のスキルにより、自然言語を通じてクラスターの問題を診断して解決できるため、分散トレーニングと推論用のインフラストラクチャのトラブルシューティングに必要な時間と専門知識を削減できます。
GPU ハードウェア障害のデバッグ、NCCL 通信障害の診断、および大規模な分散クラスターにおけるパフォーマンスのボトルネックの特定は、依然として複雑で時間がかかります。オペレーターは多くの場合、手動でノードに SSM 接続し、数十のインスタンスにわたるログを解析し、ドキュメントと照合する必要があります。この新しい HyperPod のトラブルシューティングスキルは、クラスターの正常性検証、ハードウェアと通信の診断、ソフトウェアバージョンのずれの検出、自動診断レポートなどの機能により、問題解決までの時間を短縮するのに役立ちます。各スキルによって、AWS のベストプラクティスが構造化された診断ワークフローに体系化され、AI エージェントが AWS Systems Manager 経由でクラスターノードから証拠を収集し、パターンを分析し、実用的な推奨事項を提供する際の系統的なガイドになります。このスキルは既存の HyperPod インフラストラクチャで、変更を加えることなく機能します。
HyperPod のトラブルシューティングスキルはオープンソースであり、SageMaker AI スキルプラグインを通じて Slurm と Amazon EKS のいずれでオーケストレーションされた HyperPod クラスターでも、本日より利用可能です。使用を開始するには、AWSLabs の GitHub リポジトリにアクセスして、sagemaker-ai プラグインをお好みのコーディングアシスタントにインストールしてください。