跳至主要内容

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod 功能

在数千个人工智能加速器上扩展和加速生成式人工智能模型的开发

无检查点训练

Amazon SageMaker HyperPod 上的无检查点训练能够在几分钟内从基础设施故障中自动恢复,无需人工干预。它缓解了因故障恢复而需要进行的作业级别的检查点重启的情况,这种重启方式需要暂停整个集群、修复问题并从保存的检查点中恢复。无检查点训练在出现故障的情况下仍能保持训练的顺利进行,因为 SageMaker HyperPod 会自动更换故障组件,并通过在运行正常的人工智能加速器之间使用模型和优化器状态的点对点传输来恢复训练。它能够在拥有数千个人工智能加速器的集群上实现超过 95% 的训练吞吐量。 通过无检查点训练,节省数百万的计算成本,将训练规模扩展至数千个人工智能加速器,并能更快地将模型投入生产。

了解更多

弹性训练

在 Amazon SageMaker HyperPod 上进行的弹性训练会根据计算资源的可用性自动扩展训练作业,每周可节省以往用于重新配置训练作业的数小时工程时间。对于人工智能加速器的需求会随着推理工作负载随流量模式的变化而不断波动,随着已完成实验的发布资源,以及新的训练作业调整工作负载优先级而发生变化。SageMaker HyperPod 能够动态扩展正在运行的训练作业,以吸纳闲置的人工智能加速器,从而最大限度地提高基础设施利用率。当推理或评估等优先级较高的工作负载需要资源时,训练会相应缩减规模,以使用较少的资源继续进行,而不至于完全停止,从而根据通过任务治理策略所设定的优先级来提供所需的容量。弹性训练能够帮助您加快人工智能模型的开发进程,同时还能减少因计算资源未充分利用而导致的成本超支问题。

了解更多

任务治理

借助 Amazon SageMaker HyperPod,您可以全面了解并控制生成式人工智能模型开发任务(例如训练和推理)中的计算资源分配。SageMaker HyperPod 可自动管理任务队列,确保最关键的任务得到优先处理,同时可以更高效地使用计算资源来降低模型开发成本。 只需几个简单的步骤,管理员就可以为不同的任务定义优先级,并设置每个团队或项目可以使用的计算资源数量限制。 然后,数据科学家和开发人员会创建任务(例如训练运行、微调特定模型或对经过训练的模型进行预测),SageMaker HyperPod 则会根据管理员设置的计算资源限制和优先级自动运行这些任务。当有高优先级任务需要完成但所有计算资源都在使用中时,SageMaker HyperPod 会自动从优先级较低的任务中释放计算资源。 此外,SageMaker HyperPod 还会自动使用闲置计算资源来加速等待中的任务。SageMaker HyperPod 提供了一个控制面板,管理员可以在其中监控和审核正在运行或等待计算资源的任务。

灵活的训练计划

为了满足您的训练时间表和预算,SageMaker HyperPod 可帮助您制定最经济高效的训练计划,这些计划可使用来自多个计算容量块的计算资源。批准这些训练计划后,SageMaker HyperPod 就会自动预置基础设施,并在这些计算资源上运行训练作业,而不需要任何手动干预。您可以节省数周管理训练流程的工作,从而使作业与计算可用性保持一致。

Amazon SageMaker HyperPod 竞价型实例

借助 SageMaker HyperPod 上的竞价型实例,您能够以显著降低的成本访问计算容量。竞价型实例非常适合批量推理作业等容错工作负载。价格因区域和实例类型而异,与 SageMaker HyperPod 按需定价相比,通常提供高达 90% 的折扣。竞价型实例的价格由 Amazon EC2 设置,并根据竞价型实例容量的长期供求趋势逐步调整。您将支付实例运行期间生效的竞价价格,无需预先承诺。要详细了解预估的竞价型实例价格和实例可用性,请访问 EC2 竞价型实例定价页面。请注意,只有同样支持 HyperPod 的实例才能在 HyperPod 上竞价使用。

用于自定义模型的优化方案

使用 SageMaker HyperPod 方案,各种技能水平的数据科学家和开发人员都能从最先进的性能中获益,并且可以快速开始训练和微调公开可用的基础模型,包括 Llama、Mixtral、Mistral 和 DeepSeek 模型。此外,您还可以利用一系列技术对 Amazon Nova 模型(包括 Nova Micro、Nova Lite 和 Nova Pro)进行定制,这些技术包括监督式微调(SFT)、知识蒸馏、直接偏好优化(DPO)、近端策略优化以及持续预训练,并支持在 SFT、蒸馏和 DPO 过程中选择参数高效或完整模型训练方式。每个配方都包含一个已经过 AWS 测试的训练堆栈,从而为您节省数周繁琐的测试工作,无需反复测试不同的模型配置。您可以进行单行配方更改,以便在基于 GPU 的实例和基于 AWS Trainium 的实例之间切换,还可以启用自动模型检查点以便提高训练弹性,并在 SageMaker HyperPod 上的生产环境中运行工作负载。

Amazon Nova Forge 是一项业界首创的计划,能够让各个组织以极其轻松、经济高效的方式,使用 Nova 来构建自己的前沿模型。从 Nova 模型的中间检查点获取信息和进行训练,在训练期间将 Amazon 的精选数据集与专有数据混合在一起,并使用 SageMaker HyperPod 配方来训练您自己的模型。借助 Nova Forge,您可以利用自身企业的数据来解锁针对特定应用场景的智能分析结果,并实现任务的性能优化和成本降低。

了解更多

高性能分布式训练

通过在 AWS 加速器中自动拆分模型和训练数据集,SageMaker HyperPod 可加速分布式训练。它可以帮助您优化针对 AWS 网络基础设施和集群拓扑的训练作业,并通过优化存储检查点的频率来简化模型检查点,从而确保训练期间的开销最小。

高级可观测性和实验工具

SageMaker HyperPod 的可观测性功能提供了预配置在 Amazon Managed Grafana 中的统一控制面板,其监测数据会自动发布到 Amazon Managed Prometheus 工作区中。您可以在一个视图中查看实时性能指标、资源使用情况和集群运行状况,从而使各个团队能够迅速发现瓶颈、避免代价高昂的延误,并优化计算资源。SageMaker HyperPod 还与 Amazon CloudWatch Container Insights 相集成,以便您更深入地了解集群的性能、运行状况和使用情况。SageMaker 中的托管式 TensorBoard 通过可视化模型架构来识别和修复整合问题,从而帮助您缩短开发时间。SageMaker 中的托管式 MLflow 可帮助您高效地大规模管理实验。

Screenshot of a GPU cluster dashboard displaying metrics and performance data for HyperPod, including GPU temperature, power usage, memory usage, NVLink bandwidth, and cluster alerts.

工作负载调度和编排

SageMaker HyperPod 用户界面可以使用 Slurm 或 Amazon Elastic Kubernetes Service(Amazon EKS)进行高度自定义。您可以选择并安装任何需要的框架或工具。所有集群均使用您选择的实例类型和数量进行预调配,并保留供您在各种工作负载中使用。借助 SageMaker HyperPod 中的 Amazon EKS 支持,您可以通过一致的基于 Kubernetes 的管理员体验来管理和操作集群。从训练、微调到推理,高效运行和扩展工作负载。您也可以共享计算容量,并在 Slurm 和 Amazon EKS 之间切换以处理不同类型的工作负载。

自动集群运行状况检查和修复

如果在模型开发工作负载期间有任何实例出现缺陷,SageMaker HyperPod 会自动进行检测并解决基础设施问题。为了检测硬件故障,SageMaker HyperPod 会定期对加速器和网络完整性进行一系列运行状况检查。

加速从 SageMaker Jumpstart 部署开源权重模型

SageMaker HyperPod 自动以经过简化的方式部署来自 SageMaker JumpStart 的开源权重基础模型以及来自 Amazon S3 和 Amazon FSx 的经过微调的模型。SageMaker HyperPod 可自动预置所需的基础设施并设置端点,从而省去了手动预置的步骤。借助 SageMaker HyperPod 任务治理功能,端点流量将得到持续监控,并能动态调整计算资源,同时还会将全面的性能指标发布到可观测性控制面板上,以便进行实时监控和优化。

Screenshot of the deployment settings for deploying a model endpoint using SageMaker HyperPod in SageMaker Studio. The interface shows fields for deployment name, HyperPod cluster selection, instance type, namespace, auto-scaling options, and the model being deployed. Used for large-scale inference with pre-provisioned compute.

托管分层检查点

SageMaker HyperPod 托管分层检查点使用 CPU 内存来存储频繁的检查点以实现快速恢复,同时定期将数据保存到 Amazon Simple Storage Service(Amazon S3)以实现长期持久性。这种混合方法可以最大限度地减少训练损失,并显著缩短故障后恢复训练的时间。客户可以在内存和永久存储层上配置检查点频率和保留策略。通过经常存储在内存中,客户可以快速恢复,同时最大限度地降低存储成本。通过与 PyTorch 的分布式检查点(DCP)集成,客户只需几行代码即可轻松实施检查点,同时获得内存存储的性能优势。

了解更多

通过 GPU 分区实现资源的最大化利用

SageMaker HyperPod 使管理员能够将 GPU 资源划分成更小且独立的计算单元,从而最大限度地提高 GPU 的利用率。您可以在单个 GPU 上运行各种生成式人工智能任务,而无需将完整的 GPU 专门用于那些仅需要少量资源的任务。通过实时性能指标以及各 GPU 分区间的资源使用情况监测,您可以清晰了解任务是如何使用计算资源的。这种优化的分配方式和简化的设置能够加快生成式人工智能的开发进程,提高 GPU 的利用率,并在各任务中大规模实现高效的 GPU 资源使用率。

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。