Amazon SageMaker HyperPod 现已支持通过控制台执行节点操作
发布于:
2026年2月10日
Amazon SageMaker HyperPod 现在使您能够直接从 AWS 管理控制台管理单个集群节点。管理大规模人工智能/机器学习工作负载的 HyperPod 集群运营商通常需要连接到节点进行故障排除、重启无响应的实例或更换降级的节点。连接到节点以前需要手动构建 SSM 连接字符串,而现在,对于重启和替换所需的 CLI 命令等节点恢复操作,控制台为所有节点操作提供了单一界面。
借助控制台中的节点操作,您现在可以通过 AWS Systems Manager(SSM)连接到任何节点。控制台提供预先填充的 SSM CLI 命令,支持复制到剪贴板,并在控制台中直接启动 SSM 会话。虽然 SageMaker HyperPod 集群已经支持自动替换和重启运行状况不佳的实例,但在某些情况下,例如内存溢出或无法检测到的硬件降级,可能需要手动干预。现在,控制台中的节点操作提供一种一致的方法,可以手动重启节点以从瞬态问题中恢复、删除运行状况不佳的节点和替换节点,批量操作支持同时执行多个节点操作,使您能够在几分钟内解决节点问题。在运行时间敏感的人工智能训练和推理工作负载时,这项功能尤为重要,因为这些工作负载必须最大限度地减少停机时间。
此功能现已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。您可以在控制台的 HyperPod 集群管理页面中执行所有这些节点操作。单击相应的链接,了解有关替换/重启和连接到节点的更多信息。