Amazon EC2 Trn2 实例现已全面推出

发布于: 2024年12月3日

今天,AWS 宣布全面推出由 AWS Trainium2 芯片提供支持的 Amazon Elastic Compute Cloud (Amazon EC2) Trn2 实例和 Trn2 UltraServers 预览版。 Trn2 实例和 UltraServers 可通过 EC2 容量块获得,是用于深度学习以及生成式 AI 训练和推理的最强大的 EC2 计算解决方案。

您可以使用 Trn2 实例训练和部署要求极为严苛的基础模型,包括大型语言模型 (LLM)、多模态模型、扩散转换器等,以构建广泛的 AI 应用程序。为了缩短训练时间并为功能最出色、最先进的模型提供突破性的响应时间(每分词延迟),您可能需要比单个实例所能提供的更多计算和内存。Trn2 UltraServers 是一款全新的 EC2 产品,它使用高带宽、低延迟的编织架构 NeuronLink 将 4 个 Trn2 实例上的 64 个 Trainium2 芯片连接到一个节点中,从而实现无与伦比的性能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。

Trn2 实例采用 16 个 Trainium2 芯片,可提供高达 20.8 千万亿次的 FP8 计算、1.5 TB 的高带宽内存、每秒 46 Tb 的内存带宽以及 3.2 Tbps 的 EFA 网络。Trn2 UltraServers 采用 64 个 Trainium2 芯片,可提供高达 83.2 千万亿次的 FP8 计算、6 TB 的总高带宽内存、每秒 185 TB 的总内存带宽以及 12.8 Tbps 的 EFA 网络。它们都部署在 EC2 UltraClusters 中,为分布式训练提供非阻塞的 PB 级横向扩展功能。Trn2 实例现已通过适用于 ML 的 EC2 容量块在美国东部(俄亥俄州)AWS 区域以 trn2.48xlarge 大小全面推出。

要了解有关 Trn2 实例的更多信息并请求访问 Trn2 UltraServers,请访问 Trn2 实例页面。