宣布推出 Amazon SageMaker HyperPod，这是一款专为大规模分布式训练而构建的基础设施

发布于: Nov 29, 2023

今天，AWS 宣布全面推出 Amazon SageMaker HyperPod，它通过为大规模分布式训练提供专门构建的基础设施，将基础模型 (FM) 的训练时间缩短达 40％。

许多组织希望使用基于图形处理单元 (GPU) 和基于 Trainium 的实例以低成本训练自己的 FM。然而，数据量的增加、模型的大小以及训练 FM 所需的时间都呈指数级增加，使得训练模型的复杂性大大提高。客户通常需要将他们的 FM 训练分布在数百或数千个加速器上。然后，他们一次并行运行数万亿个数据计算，持续数周甚至数月，这是一项耗时的工作，并需要专业的 ML 专业知识。与训练任务特定的模型相比，加速器的数量和训练时间显著增加，因此出现罕见的小错误（例如单个加速器故障）的可能性就会增加。

SageMaker HyperPod 消除了为训练 FM 而构建和优化 ML 基础设施所涉及的千篇一律的繁重工作。SageMaker HyperPod 预配置了 SageMaker 的分布式训练库，使客户能够自动将训练工作负载拆分到数千个加速器上，因此可以并行处理工作负载以提高模型性能。SageMaker HyperPod 还通过定期保存检查点来确保客户能够不间断地持续进行 FM 训练。当训练期间出现硬件故障时，SageMaker HyperPod 会自动检测故障，修复或更换有故障的实例，并从上次保存的检查点恢复训练，从而使客户无需手动管理此过程，并帮助他们在分布式设置中进行数周或数月的无中断训练。

SageMaker HyperPod 已全面推出，您可在以下 AWS 区域使用此功能：美国东部（俄亥俄州）、美国东部（弗吉尼亚州北部）、美国西部（俄勒冈州）、亚太地区（首尔）、亚太地区（新加坡）、亚太地区（悉尼）、亚太地区（东京）、欧洲地区（法兰克福）、欧洲地区（爱尔兰）和欧洲地区（斯德哥尔摩）。

要了解更多信息，请参阅以下资源列表：

宣布推出 Amazon SageMaker HyperPod，这是一款专为大规模分布式训练而构建的基础设施

终止对 Internet Explorer 的支持