Amazon EKS 现在可在每个集群支持多达 100,000 个 Worker 节点
发布于:
2025年7月15日
今天,Amazon EKS 宣布在单个集群中支持多达 100,000 个 Worker 节点,使您能够在单个集群中运行超大规模的 AI/ML 训练和推理工作负载。借助 Amazon EC2 的新一代加速型计算实例类型,100,000 个 Worker 节点可在单个集群中支持多达 160 万个搭载 Trn2 实例的 Trainium 芯片,以及 800,000 个搭载 P5 和 P6 实例的 NVIDIA GPU。借助这一功能,您能够运行需要所有计算加速器全部位于单个集群中的超大规模 AI/ML 工作负载,因为这类工作负载难以轻松地跨多个集群进行分布。
具有数万亿个参数的最先进的 AI 模型在理解上下文、推理和解决复杂任务方面的能力显著增强。为了构建和运行这些日益强大的模型,组织需要在单个集群中访问大量的计算加速器。统一访问如此庞大的计算加速器池带来了关键优势:使组织能够构建和部署比以往更强大的 AI 模型;通过在训练与推理工作负载之间高效共享计算加速器来降低成本;支持无缝使用并非旨在跨集群操作的现有 AI/ML 工具和框架。
要了解更多信息,请参阅发布博客。