Amazon SageMaker HyperPod 支持 Amazon EKS,可以扩展基础模型开发
我们很高兴地宣布在 SageMaker HyperPod 中全面推出 Amazon EKS 支持,这使客户能够在 SageMaker HyperPod 上运行和管理 Kubernetes 工作负载。SageMaker HyperPod 是一种专为基础模型 (FM) 开发而构建的基础设施,可将训练模型的时间缩短多达 40%。
由于 Kubernetes 的可移植性、可扩展性和丰富的工具生态系统,许多客户使用它来编排 ML 工作流。这些客户希望继续使用 Kubernetes 熟悉的界面,但又希望有一种自动化方式来管理硬件故障。HyperPod 中的 EKS 支持将 SageMaker HyperPod 提供自我修复高性能集群的优势与 Amazon EKS 这种托管式 Kubernetes 服务的容器化功能结合到了一起。此次发布后,客户可以在集群创建期间进行深入的运行状况检查,以减少训练期间的故障。此外,HyperPod 还能自动替换故障节点,并从 AWS Trainium 和 Nvidia GPU 上的最后一个检查点恢复训练,规模超过一千个加速器。客户可以灵活地使用新的 HyperPod CLI 或自己喜欢的工具来提交、管理和监控工作负载。持久集群环境支持通过 SSM 访问集群和自定义集群。EKS 编排的 HyperPod 集群还与 CloudWatch Container Insights 集成,可以自动发现 HyperPod 节点运行状况并在精心设计的的控制面板中将其可视化,从而提供现成可用的可观测性。
此版本现已在提供 SageMaker HyperPod 的 AWS 区域全面推出,但欧洲地区(伦敦)除外。
要了解更多信息,请参阅以下资源:网页、AWS 新闻博客、文档和 Github 存储库。