发布于: Nov 14, 2023

AWS 宣布全面推出适用于机器学习和高性能计算工作负载的 Amazon Elastic Compute Cloud (EC2) 实例拓扑 API。实例拓扑 API 让客户能够针对每个账户以一种独一无二的分层方式查看实例之间的相对距离。客户可以描述其实例拓扑,以便识别紧密耦合组中的实例,还可以使用实例拓扑来进一步缩短通信时间,从而减少完成任务的时间。

运行分布式并行工作负载(例如训练大型语言模型和计算流体动力学)的客户要将其工作负载扩展到数千个 EC2 实例。使用 EC2 实例拓扑 API,客户可以将拓扑描述为网络节点集,并按可用区、组名称、实例类型和实例 ID 进行筛选。网络节点集代表一个区域内实例之间的自上而下的关系。客户可以将实例拓扑应用到他们选择的调度器中,并使用它以最合适的方式为任务分配实例。

EC2 实例拓扑 API 现已在以下 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、亚太地区(首尔)、亚太地区(东京)、加拿大(中部)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)和欧洲地区(斯德哥尔摩)。以下平台支持使用 EC2 实例拓扑 API:HPC6id、HPC6a、HPC7a、HPC7g、P3dn、P4d、P4de、P5、TRN1、TRN1n。

要了解更多信息,请单击此处查看最新的 EC2 用户指南