Container Insights 现宣布在 EKS 上提供 SageMaker HyperPod 节点运行状况可观测性
Amazon CloudWatch Container Insights 现在可以自动发现在 EKS 上运行的 SageMaker HyperPod 节点的运行状况,并在精心设计的控制面板中将其可视化,以帮助您监控节点的可用性,实现卓越运营。利用现成可用的控制面板,您可以轻松识别运行不正常的节点并迅速采取措施,从而保证训练过程的高效。
Container Insights 能够与 SageMaker 协作收集 HyperPod 节点的深度运行状况检查测试结果,并将其显示在预先设定的控制面板中,以帮助您了解节点的运行状况和性能,并确定它们是否已做好调度准备。Container Insights 会将故障节点分类为“待重启”和“待替换”,并在禁用自动节点替换的情况下指导您保持节点正常运行,从而帮助您优化训练过程。启用自动恢复功能后,您可以了解节点突变、训练作业延迟情况以及您的任务是如何从上一个检查点恢复的。
Container Insights 的使用非常简单。您只需将 CloudWatch Observability EKS 附加组件或最新的 CloudWatch 代理安装到集群中,或者使用最新的 CloudWatch 代理版本升级 Helm 图表。配置完成后,您可以导航至 Container Insights 控制台,查看现成的 SageMaker Hyperpod 节点运行状况。
在提供 SageMaker HyperPod 所有商业区域,SageMaker HyperPod 节点运行状况可观测性现已在适用于 EKS 的 Container Insights 中推出。HyperPod 节点运行状况指标采用基于观测的定价,有关详细信息,请参阅 Container Insights 定价页面。有关详细信息,请参阅 Container Insights 用户指南。