Amazon SageMaker HyperPod 现在支持以编程方式重启或替换节点

发布于: 2025年11月26日

今天，Amazon SageMaker HyperPod 宣布全面推出新的 API，让客户能够以编程方式重启或替换 SageMaker HyperPod 集群节点。SageMaker HyperPod 可帮助您为运行机器学习（ML）工作负载和开发最先进的模型（如大语言模型（LLM）、扩散模型和基础模型（FM））预置弹性集群。新的 BatchRebootClusterNodes API 和 BatchReplaceClusterNodes API 让客户能够以编程方式重启或替换无响应或性能下降的集群节点，从而提供了一种一致的、与编排工具无关的节点恢复操作方法。

新的 API 增强了针对使用 Slurm 和 EKS 编排的集群的节点管理能力，补充了现有的节点重启或替换工作流程。您仍然可以使用特定于编排工具的现有方法（例如 EKS 集群的 Kubernetes 标签和 Slurm 集群的 Slurm 命令），同时可以通过这些专门设计的 API，使用新增的以编程方式重启或替换节点的功能。当群集节点由于内存溢出或硬件性能下降等问题而无响应时，您可能需要执行节点重启或替换等恢复操作，这些操作可以通过新的 API 来启动。在运行时间敏感型工作负载时，这些功能尤为重要。例如，当 Slurm 控制器、登录或计算节点无响应时，管理员可以使用 API 触发重启操作并监控其进度，以使节点恢复正常运行状态。同样，EKS 集群管理员能够以编程方式替换性能下降的 Worker 节点。每个 API 支持最多 25 个实例的批量操作，从而高效管理大规模恢复场景。

重启和替换 API 目前已在提供 SageMaker HyperPod 的三个 AWS 区域推出：美国东部（俄亥俄州）、亚太地区（孟买）和亚太地区（东京）。用户可以通过 AWS CLI、SDK 或 API 调用来使用这些 API。有关更多信息，请参阅 Amazon SageMaker HyperPod 关于 BatchRebootClusterNodes 和 BatchReplaceClusterNodes 的文档。

Amazon SageMaker HyperPod 现在支持以编程方式重启或替换节点

了解

资源

开发人员

帮助