Amazon SageMaker HyperPod 提供增强的生命周期脚本故障排查能力

发布于: 2026年1月21日

Amazon SageMaker HyperPod 现在为生命周期脚本提供了增强的故障排查能力,让用户在集群节点配置过程中更容易发现和解决问题。SageMaker HyperPod 可帮助您为运行 AI/ML 工作负载和开发最先进的模型(如大语言模型(LLM)、扩散模型和基础模型(FM))预置弹性集群。

当生命周期脚本在集群创建或节点操作期间遇到问题时,您现在会收到详细的错误消息,其中包含具体的 CloudWatch 日志组和日志流名称,您可以在其中找到生命周期脚本的执行日志。您可以运行 DescribeCluster API 或在 SageMaker 控制台中查看集群详细信息页面,从而查看这些错误消息。控制台还提供了“View lifecycle script logs”(查看生命周期脚本日志)按钮,可直接跳转到相关的 CloudWatch 日志流,简化日志定位过程。此外,生命周期脚本的 CloudWatch 日志现在包含特定标记,可帮助您跟踪生命周期脚本的执行进度,包括生命周期脚本日志何时开始、何时下载脚本、何时下载完成以及脚本何时成功或失败。这些标记可帮助您快速识别资源配置过程中出现问题的位置。这些增强功能可以缩短诊断和修复生命周期脚本故障所需的时间,帮助您更快地启动和运行 HyperPod 集群。

此功能现已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要了解更多信息,请参阅 Amazon SageMaker 开发人员指南中的 SageMaker HyperPod 集群管理