亚马逊AWS官方博客

10p10u:亚马逊云科技革新网络架构,助力大规模 AI 训练

随着人工智能技术的快速发展,大规模 AI 训练对网络基础设施提出了前所未有的挑战。亚马逊云科技作为云计算领域的领前行者,通过创新的 10p10u 网络架构,为这些挑战提供了解决方案。本文将详细介绍这一突破性技术的背景、设计目标和核心创新。

AI 工作负载对网络的新要求

近年来,AI 模型的规模和复杂度呈指数级增长,对网络性能提出了越来越高的要求:

  1. 带宽需求激增:从 2020 年 P4 实例的 400Gbps,到 2023 年 P5 实例的 3.2Tbps,再到 2024 年 Trn2u 实例的 12.8Tbps,4 年内带宽需求增长了 32 倍。
  2. 超低延迟:为确保高效的模型并行训练,网络延迟需要保持在极低水平。
  3. 大规模可扩展性:支持数万个 GPU 协同工作的能力变得至关重要。
  4. 非阻塞网络:确保任意两个节点间可以进行全速通信,不受其他流量影响。

这些需求远远超出了传统数据中心网络架构的能力范围,亟需新的解决方案。

UltraCluster 1.0 的局限性

亚马逊云科技在 2020 年推出的 UltraCluster 1.0 是为 P4 实例设计的,支持 4,000 个 A100 GPU 的规模。它采用了三级 Clos 架构,但随着 AI 模型的发展,逐渐显露出一些局限性:

  1. 网络跳数过多:数据包需要经过 7 个网络设备才能从一个主机到达另一个,增加了网络延迟。
  2. 扩展性受限:难以支持超过 4,000 个 NVIDIA A100 Tensor Core GPU 的规模,无法满足更大规模 AI 训练的需求。
  3. 带宽不足:无法满足新一代 AI 加速器日益增长的带宽需求。

这些限制促使亚马逊云科技团队重新思考网络架构,以应对未来的挑战。

UltraCluster 2.0 的设计目标

为了支持下一代 P5 实例和更大规模的 AI 训练,UltraCluster 2.0 设定了以下具体目标:

  1. 将每个实例的网络带宽提升到 3.2Tbps。
  2. 支持单个数据中心内 20,000 个 NVIDIA H100 Tensor Core GPU 的规模。
  3. 将任意两个主机间的网络跳数从 7 跳减少到 5 跳。
  4. 保持半程往返时间(Half-RTT)在 10 微秒以内。
  5. 提供完全无阻塞的,每秒10 PB的网络交换容量。

这些目标要求对网络架构进行彻底的重新设计,由此诞生了 UltraCluster 2.0,也就是 10p10u 架构。

10p10u 网络架构的核心创新

为了实现上述目标,亚马逊云科技团队在 10p10u 架构中引入了多项创新:

  1. 两级 Clos 架构:通过减少网络层级,将跳数从 7 减少到 5,显著降低了网络延迟。
  2. 水平扩展的背板(backplane):每个机架顶部交换机连接到多个背板,提高了整体带宽和可扩展性。
  3. SIDR 路由协议:开发了新型路由协议,确保网络中的每个设备都了解整个网络的状态,提高了故障恢复能力和网络效率。
  4. 强一致性更新机制:通过事务性更新和提交序列,确保整个网络的配置变更是原子性的,避免了传统分布式协议中的不一致问题。
  5. 内置安全机制:每个控制平面消息都经过签名和验证,防止未授权设备接入或恶意攻击。

这些创新使得 10p10u 能够在保持低延迟的同时,支持前所未有的规模和带宽。

下图为 10p10u 架构图:

10p10u 如何提升 AI 训练性能

10p10u 架构的创新直接转化为 AI 训练的性能提升:

  1. 超低延迟:5 跳设计和优化的控制平面使得半程 RTT 保持在 10 微秒以内,显著提高了分布式训练的效率。
  2. 高带宽:3.2Tbps 的单实例带宽确保了大规模模型能高效地在 GPU 之间传输数据。
  3. 大规模可扩展:支持 20,000 GPU 的设计为训练超大规模模型提供了可能,大大超越了当前业界水平。
  4. 一致性保证:强一致性的更新机制确保了在大规模训练过程中网络配置的可靠性和稳定性。
  5. 非阻塞通信:任意两个节点间的全速通信能力为复杂的分布式训练算法提供了理想的网络环境。

这些改进不仅满足了当前 AI 训练的需求,还为未来更大规模、更复杂的 AI 工作负载奠定了基础。

结语

亚马逊云科技将通过 10p10u 构建跨整个乃至多个数据中心的超大规模的网络基础设施,以满足万卡、十万卡、乃至未来百万卡级别 Nvidia GPU 或亚马逊自研 Trainium2 加速器的超大规模算力需求。10p10u 可帮助您将模型训练和解决方案的交付时间从数周缩短至几天,这有助于您加快迭代速度,并更快地将深度学习(DL)、生成式 AI 和高性能计算(HPC)应用推向市场。

10p10u 和 UltraCluster 2.0 的开发展示了亚马逊云科技在面对新兴技术挑战时的创新能力。通过重新设计网络架构,亚马逊云科技不仅解决了当前大规模 AI 训练的瓶颈问题,还为未来的发展提供了强大的基础设施支持。随着 AI 技术的不断进步,像 10p10u 这样的基础设施创新将继续推动 AI 领域的快速发展,为更多突破性的 AI 应用铺平道路。后续我们将为您带来更多亚马逊云科技 AI 相关网络架构设计、协议和创新的文章,深入探讨 10p10u、SRD、EFA 等技术细节及其对未来 AI 发展的影响。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

本篇作者

杨立军

亚马逊云科技网络专家,负责网络服务与产品的支持。曾服务于 Ericsson、Cisco 和 Riverbed 等知名公司,在数据中心网络、EC2 网络、云网络领域积累了丰富的经验,对相关技术有深入的理解和实践。

刘瀚文

高级产品技术专家,亚马逊云科技产品部网络方向。负责基于 AWS 的云计算网络方案架构的咨询和设计,现致力于网络和 Network-as-a- Service 相关领域的研究。在加入 AWS 之前,在思科中国担任高级系统工程师,负责运营商方案咨询和架构设计,在运营商组网和大企业基础网络方面有丰富经验。