什么是 SageMaker HyperPod?
AmazonSageMaker HyperPod 消除了为训练基础模型(FM)构建和优化机器学习(ML)基础设施所涉及的,千篇一律的繁重工作,最多可将训练时间缩短 40%。SageMaker HyperPod 预配置了 SageMaker 的分布式训练库,使客户能够自动将训练工作负载拆分到数千个加速器上,因此可以并行处理工作负载以提高模型性能。SageMaker HyperPod 还通过定期保存检查点,来确保客户能够不间断地持续进行 FM 训练。当训练期间出现硬件故障时,SageMaker HyperPod 会自动检测故障,修复或更换有故障的实例,并从上次保存的检查点恢复训练,从而使客户无需手动管理此过程,并帮助他们在分布式设置中进行数周或数月的无中断训练。
SageMaker HyperPod 的优势
优化了分布式训练库
SageMaker HyperPod 预先配置了 SageMaker 分布式库。只需几行代码,您就可以在训练脚本中启用数据并行性。SageMaker HyperPod 通过在 AWS GPU 实例中自动拆分模型和训练数据集,可以更快地执行分布式训练。
了解更多 »
工作负载调度和编排
SageMaker HyperPod 用户界面可以使用 Slurm 进行高度自定义。您可以选择并安装任何需要的框架或工具。所有集群均使用您选择的实例类型和数量进行预调配,并保留供您在各种工作负载中使用。
自动集群运行状况检查和修复
如果在训练工作负载期间有任何实例出现缺陷,SageMaker HyperPod 会自动检测故障节点,并将其交换为运行正常的节点。为了检测硬件故障,SageMaker HyperPod 会定期对 GPU 和网络完整性进行一系列运行状况检查。
调试和提高模型性能
您可以在 SageMaker HyperPod 中使用专门构建的机器学习工具来提高训练性能。带有 TensorBoard 的 Amazon SageMaker 可帮助您通过可视化模型架构来识别和修复整合问题,例如验证损失、未整合或梯度消失,从而节省开发时间。