Amazon SageMaker HyperPod 现在支持按需进行深度运行状况检查
发布于:
2026年4月17日
Amazon SageMaker HyperPod 现在支持按需对 Amazon EKS 和 SLURM 编排的集群进行深度运行状况检查,使您能够随时主动核验正在运行的实例上的 GPU 加速器的运行状况。HyperPod Slurm 编排的集群现在还支持在节点预置期间,即创建集群时进行深度运行状况检查。此功能解决了一项关键挑战,其中即便只有一个节点运行不正常,也会浪费数小时的计算时间并延迟关键工作负载。
通过按需深度运行状况检查,您可以将整个实例组或特定实例作为目标,在将计算资源分配给某个作业之前,运行全面的硬件压力测试和连接测试。通过 SageMaker 控制台和 API,可以在实例组和实例级别查看进度和结果,从而全面了解 GPU 运行状况、网络连接情况和多节点通信性能。接受检查的实例会自动与工作负载计划隔离,检查通过后可恢复服务。与 HyperPod 的自动节点恢复功能配合使用时,失败的实例会自动重启或更换,从而确保集群的运行状况。
这项功能已在提供 Amazon SageMaker HyperPod 的所有区域推出。要了解有关按需运行状况检查的更多信息,请参阅文档。