Amazon SageMaker HyperPod
在数千个人工智能加速器上扩展和加速生成式人工智能模型的开发
什么是 SageMaker HyperPod?
Amazon SageMaker HyperPod 可省去构建生成式人工智能模型所涉及的千篇一律的繁重工作。它有助于快速扩展模型开发任务,例如在数百个或数千个人工智能加速器的集群中训练、微调或推理。SageMaker HyperPod 支持对所有模型开发任务进行集中治理,让您可以全面了解和控制不同任务的优先级以及如何为每项任务分配计算资源,从而帮助您最大限度地提高集群的 GPU 和 AWS Trainium 利用率,并加速创新。
专为构建以进行大规模分布式训练
借助 SageMaker HyperPod,您可以高效地在所有加速器上分配和并行执行您的训练工作负载。SageMaker HyperPod 会自动为公开发布的常用模型应用最佳训练配置,以便助您快速实现最佳性能。它还会持续监控您的集群中是否存在任何基础设施故障、自动修复问题,并且无需人工干预即可恢复工作负载,所有这些都可助您节省多达 40% 的训练时间。
SageMaker HyperPod 的优势
通过集中治理所有模型开发任务降低成本
借助 SageMaker HyperPod 任务治理创新,您可以全面了解和控制生成式人工智能模型开发任务(例如训练和推理)中的计算资源分配。SageMaker HyperPod 可自动管理任务队列,确保最关键的任务得到优先处理并在预算内按时完成,同时可以更高效地使用计算资源,将模型开发成本降低多达 40%。
利用配方和工具实现最先进的性能
借助 SageMaker HyperPod 配方,各种技能水平的数据科学家和开发人员都能从最先进的性能中获益,同时可以在几分钟内开始训练并微调公开可用的生成式人工智能模型。此外,您可以使用这些配方为业务特定的使用案例自定义 Amazon Nova 基础模型(FM)(包括 Nova Micro、Nova Lite 和 Nova Pro),以便提高生成式人工智能应用程序的准确性,同时确保 Nova 模型具有行业领先的性价比和低延迟。SageMaker HyperPod 还提供了内置的实验和可观测性工具,帮助您增强模型性能。
在数千个人工智能加速器上高效扩展和并行执行模型训练
通过弹性开发环境消除中断
加快开源权重模型的部署
SageMaker HyperPod 可帮助加速部署来自 SageMaker JumpStart 的开源权重模型以及来自 Amazon S3 和 Amazon FSx 的经过微调的模型。您可以借助自动预置功能、任务治理实现的计算资源管理、实时性能监控以及增强的可观测性,来简化模型部署任务。