Amazon SageMaker HyperPod 现在支持以编程方式重启或替换节点
今天,Amazon SageMaker HyperPod 宣布全面推出新的 API,让客户能够以编程方式重启或替换 SageMaker HyperPod 集群节点。SageMaker HyperPod 可帮助您为运行机器学习(ML)工作负载和开发最先进的模型(如大语言模型(LLM)、扩散模型和基础模型(FM))预置弹性集群。新的 BatchRebootClusterNodes API 和 BatchReplaceClusterNodes API 让客户能够以编程方式重启或替换无响应或性能下降的集群节点,从而提供了一种一致的、与编排工具无关的节点恢复操作方法。
新的 API 增强了针对使用 Slurm 和 EKS 编排的集群的节点管理能力,补充了现有的节点重启或替换工作流程。您仍然可以使用特定于编排工具的现有方法(例如 EKS 集群的 Kubernetes 标签和 Slurm 集群的 Slurm 命令),同时可以通过这些专门设计的 API,使用新增的以编程方式重启或替换节点的功能。当群集节点由于内存溢出或硬件性能下降等问题而无响应时,您可能需要执行节点重启或替换等恢复操作,这些操作可以通过新的 API 来启动。在运行时间敏感型工作负载时,这些功能尤为重要。例如,当 Slurm 控制器、登录或计算节点无响应时,管理员可以使用 API 触发重启操作并监控其进度,以使节点恢复正常运行状态。同样,EKS 集群管理员能够以编程方式替换性能下降的 Worker 节点。每个 API 支持最多 25 个实例的批量操作,从而高效管理大规模恢复场景。
重启和替换 API 目前已在提供 SageMaker HyperPod 的三个 AWS 区域推出:美国东部(俄亥俄州)、亚太地区(孟买)和亚太地区(东京)。用户可以通过 AWS CLI、SDK 或 API 调用来使用这些 API。有关更多信息,请参阅 Amazon SageMaker HyperPod 关于 BatchRebootClusterNodes 和 BatchReplaceClusterNodes 的文档。