发布于: Nov 29, 2023
今天,AWS 宣布全面推出 Amazon SageMaker HyperPod,它通过为大规模分布式训练提供专门构建的基础设施,将基础模型 (FM) 的训练时间缩短达 40%。
许多组织希望使用基于图形处理单元 (GPU) 和基于 Trainium 的实例以低成本训练自己的 FM。然而,数据量的增加、模型的大小以及训练 FM 所需的时间都呈指数级增加,使得训练模型的复杂性大大提高。客户通常需要将他们的 FM 训练分布在数百或数千个加速器上。然后,他们一次并行运行数万亿个数据计算,持续数周甚至数月,这是一项耗时的工作,并需要专业的 ML 专业知识。与训练任务特定的模型相比,加速器的数量和训练时间显著增加,因此出现罕见的小错误(例如单个加速器故障)的可能性就会增加。
SageMaker HyperPod 消除了为训练 FM 而构建和优化 ML 基础设施所涉及的千篇一律的繁重工作。SageMaker HyperPod 预配置了 SageMaker 的分布式训练库,使客户能够自动将训练工作负载拆分到数千个加速器上,因此可以并行处理工作负载以提高模型性能。SageMaker HyperPod 还通过定期保存检查点来确保客户能够不间断地持续进行 FM 训练。当训练期间出现硬件故障时,SageMaker HyperPod 会自动检测故障,修复或更换有故障的实例,并从上次保存的检查点恢复训练,从而使客户无需手动管理此过程,并帮助他们在分布式设置中进行数周或数月的无中断训练。
SageMaker HyperPod 已全面推出,您可在以下 AWS 区域使用此功能:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)和欧洲地区(斯德哥尔摩)。