Amazon SageMaker HyperPod 現在為 AI 編碼助理提供疑難排解技能

張貼日期: 2026年6月1日

Amazon SageMaker HyperPod 現在提供疑難排解技能,能夠將專家級別的 AI/ML 叢集診斷功能直接導入 Claude Code、Cursor 和 Kiro 等 AI 編碼助理。SageMaker HyperPod 是專門建置的基礎架構,可用於大規模開發、訓練和部署基礎模型。該服務可提供一種彈性和效能表現良好的環境,具備內建的容錯能力及自動化叢集還原,從而減少千篇一律又繁重的大規模 AI/ML 基礎架構管理工作。HyperPod 技能可讓您透過自然語言診斷和解決叢集問題,從而減少分散式訓練和推論基礎架構疑難排解所需的時間和專業知識。

為 GPU 硬體錯誤偵錯、診斷 NCCL 通訊故障,以及識別大型分散式叢集之間的效能瓶頸仍然十分複雜且耗時。操作員通常需要手動 SSM 到節點中、剖析數十個執行個體的日誌,以及交叉參考文件。全新的 HyperPod 疑難排解技能有助於縮短解決時間,其中包括叢集健康狀態驗證、硬體和通訊診斷、軟體版本漂移,以及自動化診斷報告等功能。每項技能都會將 AWS 最佳實務編碼為結構化診斷工作流程,這些工作流程能夠系統地指導 AI 代理程式透過 AWS Systems Manager 從叢集節點收集證據、分析模式並提供可行的建議。這些技能適用於您現有的 HyperPod 基礎架構,而且無需修改。

HyperPod 疑難排解技能處於開放原始碼狀態,現在能夠透過 SageMaker AI 技能外掛程式,同時適用於 Slurm 和 Amazon EKS 協調的 HyperPod 叢集。若要著手使用,請前往 AWSLabs GitHub 儲存庫,在您偏好的編碼助理中安裝 sagemaker-ai 外掛程式。