- 机器学习›
- Amazon SageMaker AI›
- Amazon SageMaker HyperPod
Amazon SageMaker HyperPod
在数千个 AI 加速器上扩展和加速生成式人工智能模型的开发
什么是 SageMaker HyperPod?
Amazon SageMaker HyperPod 可省去构建生成式人工智能模型所涉及的千篇一律的繁重工作。它有助于快速扩展模型开发任务,例如在数百个或数千个人工智能加速器的集群中训练、微调或推理。SageMaker HyperPod 支持对所有模型开发任务进行集中治理,让您可以全面了解和控制不同任务的优先级以及如何为每项任务分配计算资源,从而帮助您最大限度地提高集群的 GPU 和 AWS Trainium 利用率,并加速创新。
专为进行大规模分布式训练而构建
借助 SageMaker HyperPod,您可以高效地在所有加速器上分配和并行执行您的训练工作负载。SageMaker HyperPod 会自动为公开发布的常用模型应用最佳训练配置,以便助您快速实现最佳性能。它还会持续监控您的集群中是否存在任何基础设施故障、自动修复问题,并且无需人工干预即可恢复工作负载,所有这些可助您节省多达 40% 的训练时间。
SageMaker HyperPod 的优势
SageMaker HyperPod 可自动检测、诊断和恢复基础设施故障,从而为模型开发提供弹性环境,使您能够连续运行模型开发工作负载数月而不会中断。通过在 SageMaker HyperPod 上进行无检查点训练,无需在作业级别进行基于检查点的重新启动,而且即使出现故障也能继续训练,因此节省了恢复期间的闲置计算费用,并将产品上市时间缩短了数周。
借助 SageMaker HyperPod 任务治理创新,您可以全面了解和控制模型开发任务(包括训练、微调、实验和推理)中的计算资源分配。SageMaker HyperPod 可自动管理任务队列,确保最关键的任务得到优先处理并在预算内按时完成,同时可以更高效地使用计算资源,将模型开发成本降低多达 40%。此外,SageMaker HyperPod 具备先进的可观测性功能,能够实现从人工智能模型开发任务到计算资源的统一监控。
使用 SageMaker HyperPod 方案,各种技能水平的数据科学家和开发人员都能从最先进的性能中获益,并且可以在几分钟内快速开始训练和微调公开可用的基础模型。此外,您还可以根据业务的特定使用案例来自定义 Amazon Nova 模型(包括 Nova Micro、Nova Lite 和 Nova Pro),并利用配方来提高生成式人工智能应用程序的准确性,同时保持行业领先的性价比和低延迟优势。 Amazon Nova Forge 是一项业界首创的计划,能够让各个组织以极其轻松、经济高效的方式,使用 Nova 来构建自己的前沿模型。
借助 SageMaker HyperPod,您可以在 AWS 集群实例之间自动拆分模型和训练数据集,从而高效地扩展训练工作负载。它可帮助您优化 AWS 网络基础设施和集群拓扑的训练作业。该服务还优化了储存检查点的频率,以便通过配方来简化模型检查点,从而确保训练期间的开销最小。
SageMaker HyperPod 可帮助加速部署来自 SageMaker JumpStart 的开源权重模型以及来自 Amazon Simple Storage Service(Amazon S3)和 Amazon FSx 的经过微调的模型。您可以借助自动预调配功能、以任务治理实现的计算资源管理、实时性能监控以及增强的可观测性,来简化模型部署任务。