Amazon SageMaker HyperPod 现已针对人工智能编程助手推出故障排除技能

发布于: 2026年6月1日

Amazon SageMaker HyperPod 现已推出故障排除技能,可将专家级 AI/ML 集群诊断功能直接集成到 Claude Code、Cursor 和 Kiro 等人工智能编码助手中。SageMaker HyperPod 是一款专门构建的基础设施,用于大规模开发、训练和部署基础模型。它提供一个弹性的高性能环境,具备内置容错能力和自动化集群恢复能力,从而减少了管理大规模 AI/ML 基础设施的无差别繁重工作。HyperPod 技能使您能够通过自然语言诊断和解决集群问题,从而减少对分布式训练和推理基础设施进行故障排除所需的时间和专业知识。

调试 GPU 硬件故障、诊断 NCCL 通信故障以及识别大型分布式集群中的性能瓶颈,仍然是一项复杂且耗时的任务。操作员通常需要手动通过 SSM 登录节点,解析数十个实例的日志,并查阅相关文档进行交叉比对。新的 HyperPod 故障排除技能可帮助更快解决问题,其功能涵盖集群运行状况验证、硬件和通信诊断、软件版本漂移以及自动化诊断报告。每项技能都将 AWS 最佳实践编码到结构化诊断工作流程中,系统地指导人工智能代理通过 AWS Systems Manager 从您的集群节点收集证据、分析模式并提供切实可行的建议。这些技能适用于您现有的 HyperPod 基础设施,无需进行任何修改。

HyperPod 故障排除技能是开源的,并可通过 SageMaker AI 技能插件,立即用于由 Slurm 和 Amazon EKS 编排的 HyperPod 集群。要开始使用,请访问 AWSLabs github 存储库,在您首选的编程助手中安装 sagemaker-ai 插件。