Amazon SageMaker HyperPod 现已全面推出任务管理功能

发布于: 2024年12月4日

Amazon SageMaker HyperPod 现在支持集中管理所有生成式人工智能开发任务(例如训练和推理)。您可以全面了解和控制计算资源的分配,确保优先处理最重要的任务、最大限度地提高计算资源利用率,从而将模型开发成本降低最多 40%。

通过 HyperPod 任务管理功能,管理员可以更轻松地设定不同任务的优先级,并针对每个团队可以使用的计算资源数量设置限制。管理员还可以随时通过一个可视化控制面板来监控和审核正在运行的任务或正在等待计算资源的任务。当数据科学家创建任务时,HyperPod 会按照定义的计算资源限制和优先级自动运行这些任务。例如,当需要尽快完成高优先级模型的训练但所有计算资源都被占用时,HyperPod 会从优先级较低的任务中腾出资源来支持训练。HyperPod 会暂停低优先级任务,保存检查点并重新分配腾出的计算资源。当资源再次可用时,被暂停的低优先级任务将从上次保存的检查点恢复。而且,当一个团队使用的资源没有达到管理员设置的限制时,HyperPod 会使用这些空闲资源来加速另一个团队的任务。此外,HyperPod 现已与 Amazon SageMaker Studio 集成,将任务管理和其他 HyperPod 功能引入了 Studio 环境。数据科学家现在可以直接从 Studio 中与 HyperPod 集群进行无缝交互,从而在配备加速器的强大集群上开发、提交和监控机器学习(ML)作业。

HyperPod 的任务管理功能已在提供 HyperPod 的所有 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(孟买)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(斯德哥尔摩)和南美洲(圣保罗)。

要了解更多信息,请访问 SageMaker HyperPod 网页AWS 新闻博客SageMaker AI 文档。