SageMaker HyperPod 现已支持分布式训练工作负载的成组调度
Amazon SageMaker HyperPod 任务治理现已支持成组调度,这确保了分布式训练作业所需的所有容器组 (pod) 在训练开始前均已就绪。管理员可以配置成组调度,以防止因部分作业运行而浪费计算资源,并避免作业因等待资源而产生死锁。
数据科学家使用 EKS 编排工具在 Amazon SageMaker HyperPod 集群上运行分布式 AI/ML 训练作业时,需要多个容器组 (pod) 通过容器组 (pod) 间通信在节点间协同工作。当部分容器组 (pod) 启动而其他容器组 (pod) 未启动时,作业可能会占用资源却无进展,从而阻塞其他工作负载并增加成本。成组调度通过以下方式来解决这个问题:监控工作负载中的所有容器组 (pod),如果并非所有容器组 (pod) 在设定的时间内都准备就绪,则撤回工作负载。被撤回的工作负载会自动重新排队以防止停滞。管理员可以在 HyperPod 控制台上调整设置,例如等待容器组 (pod) 就绪的时间、如何处理节点故障、是否一次仅接纳一个工作负载以避免繁忙集群出现死锁,以及如何调度重试。
此功能目前适用于使用 EKS 编排工具的 Amazon SageMaker HyperPod 集群,并且已在以下 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(孟买)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、亚太地区(雅加达)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(斯德哥尔摩)、欧洲(西班牙)和南美洲(圣保罗)。
要了解更多信息,请访问 SageMaker HyperPod 网页和 HyperPod 任务治理文档。