Amazon SageMaker HyperPod

使用专为大规模分布式训练构建的基础设施,将基础模型的训练时间缩短多达 40%

什么是 SageMaker HyperPod?

AmazonSageMaker HyperPod 消除了为训练基础模型(FM)构建和优化机器学习(ML)基础设施所涉及的,千篇一律的繁重工作,最多可将训练时间缩短 40%。SageMaker HyperPod 预配置了 SageMaker 的分布式训练库,使客户能够自动将训练工作负载拆分到数千个加速器上,因此可以并行处理工作负载以提高模型性能。SageMaker HyperPod 还通过定期保存检查点,来确保客户能够不间断地持续进行 FM 训练。当训练期间出现硬件故障时,SageMaker HyperPod 会自动检测故障,修复或更换有故障的实例,并从上次保存的检查点恢复训练,从而使客户无需手动管理此过程,并帮助他们在分布式设置中进行数周或数月的无中断训练。

SageMaker HyperPod 的优势

Amazon SageMaker HyperPod 预先配置了 Amazon SageMaker 分布式训练库,允许您在 AWS 集群实例中自动拆分模型和训练数据集,有助于高效地扩展训练工作负载。
Amazon SageMaker 分布式训练库通过数据并行和模型并行两种技术,优化您的 AWS 网络基础设施和集群拓扑的训练作业。模型并行性会将由于过大而不适合在单个 GPU 上训练的模型拆分成较小的多个部分,然后将其分配到多个 GPU 上进行训练。数据并行性拆分大型数据集以并行训练,从而提升训练速度。
SageMaker HyperPod 可自动检测、诊断故障并从故障中恢复,从而提供更具韧性的训练环境,使您能够连续训练 FM 数月而不会中断。

优化了分布式训练库

SageMaker HyperPod 预先配置了 SageMaker 分布式库。只需几行代码,您就可以在训练脚本中启用数据并行性。SageMaker HyperPod 通过在 AWS GPU 实例中自动拆分模型和训练数据集,可以更快地执行分布式训练。

了解更多 »

工作负载调度和编排

SageMaker HyperPod 用户界面可以使用 Slurm 进行高度自定义。您可以选择并安装任何需要的框架或工具。所有集群均使用您选择的实例类型和数量进行预调配,并保留供您在各种工作负载中使用。

自动集群运行状况检查和修复

如果在训练工作负载期间有任何实例出现缺陷,SageMaker HyperPod 会自动检测故障节点,并将其交换为运行正常的节点。为了检测硬件故障,SageMaker HyperPod 会定期对 GPU 和网络完整性进行一系列运行状况检查。 

调试和提高模型性能

您可以在 SageMaker HyperPod 中使用专门构建的机器学习工具来提高训练性能。带有 TensorBoard 的 Amazon SageMaker 可帮助您通过可视化模型架构来识别和修复整合问题,例如验证损失、未整合或梯度消失,从而节省开发时间。

了解更多 »