- Amazon EC2›
- 实例类型›
- Trn1 实例
为什么选择 Amazon EC2 Trn1 实例?
由 AWS Trainium 芯片提供支持的亚马逊弹性计算云 (EC2) Trn1 实例专为生成式 AI 模型(包括大型语言模型 (LLM) 和潜在扩散模型)的高性能深度学习 (DL) 训练而构建。与其他同类 Amazon EC2 实例相比,Trn1 实例可节省高达 50% 的训练成本。 您可以使用 Trn1 实例在广泛的应用程序中训练 100B 以上的参数 DL 和生成式人工智能模型,例如文本摘要、代码生成、问答、图像和视频生成、推荐和欺诈检测。
AWS Neuron SDK 可帮助开发人员在 AWS Trainium 上训练模型,以及在 AWS Inferentia 芯片上部署模型。它与 PyTorch 和 TensorFlow 等框架原生集成,让您可以继续使用现有的代码和工作流程在 Trn1 实例上训练模型。要了解当前 Neuron 对机器学习 (ML) 框架和库的支持、模型架构和硬件优化,请参阅 Neuron 文档。
介绍由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例
优势
Trn1 实例专为高性能深度学习打造,可将训练时间从数月缩短到数周甚至数天。通过减少训练时间,您可以加快迭代速度、构建更多创新模型并提高生产力。 对于受益于网络带宽增加的模型,Trn1n 实例的训练速度比 Trn1 实例快多达 20%。
Trn1 实例提供高性能,同时与其他同类 Amazon EC2 实例相比,可节省高达 50% 的训练成本。
使用 AWS Neuron SDK 提取 Trn1 实例的全部性能。通过 Neuron,您可以使用 PyTorch 和 TensorFlow 等流行的机器学习框架,并继续使用现有代码和工作流程在 Trn1 实例上训练模型。要快速开始使用 Trn1 实例,请参阅 Neuron 文档中的热门模型示例。
Trn1 实例支持高达 800 Gbps 的第二代 Elastic Fabric Adapter (EFAv2) 网络带宽。Trn1n 实例支持高达 1600 Gbps 的 EFAv2 网络带宽,为网络密集型模型提供更高的性能。这两种实例都部署在 EC2 UltraCluster 中,可扩展至多达 3 万个 Trainium 芯片,这些芯片与非阻塞 PB 级网络互连,提供 6 exaflops 的计算性能。
功能
Trn1 实例由多达 16 个 AWS Trainium 芯片提供支持,旨在加速深度学习训练,并可提供高达每秒 3 千万亿次浮点运算的 FP16/BF16 计算能力。每个芯片包括两个第二代 NeuronCore。
为了支持高效的数据和模型并行性,每个 Trn1 实例都有 512GB 的共享加速器内存 (HBM),总内存带宽为 9.8TB/s。
为了支持专家混合模型 (MoE) 和生成式预训练转换器 (GPT) 等网络密集型模型的训练,每个 Trn1n 实例均可提供高达 1600 Gbps 的 EFAv2 网络带宽。每个 Trn1 实例均可支持高达 800 Gbps 的 EFAv2 带宽。 与第一代 EFA 相比,EFAv2 可将集体通信性能提高多达 50%,从而加快分布式训练。这些实例还支持高达 80 Gbps 的 Amazon Elastic Block Store (EBS) 带宽和高达 8TB 的本地 NVMe 固态驱动器 (SSD) 存储,以实现对大型数据集的快速工作负载访问。
为了实现 Trainium 芯片之间的快速连接并简化集体通信,Trn1 实例支持高达 768Gb/s 的 NeuronLink,这是一种高速、无阻塞的互连。
为了在实现精度目标的同时提供高性能,Trn1 实例针对 FP32、TF32、BF16、FP16、UINT8 和新的可配置 FP8 (cFP8) 数据类型进行了优化。为了支持快节奏的深度学习创新和生成式 AI,Trn1 实例采用了多项创新,使其灵活且可扩展,可以训练不断演变的深度学习模型。Trn1 实例具有针对动态输入形状的硬件优化和软件支持。为了在将来支持新的运算符,该实例支持用 C++ 编写的自定义运算符。它们还支持随机舍入,这是一种概率舍入方式,与传统舍入模式相比可实现高性能和更高的精度。
客户和合作伙伴评价
以下是客户和合作伙伴如何利用 Amazon EC2 Trn1 实例实现业务目标的一些示例。
Databricks
全球超过 10000 家组织(包括 Comcast、Condé Nast 以及超过 50% 的财富 500 强企业)依靠 Databricks 来统一其数据、分析和人工智能。
“成千上万的客户已经在AWS上实施了Databricks,这使他们能够使用MosaicML为各种用例预训练、微调和提供基础模型。AWS Trainium 为我们提供了训练 Mosaic MPT 模型所需的规模和高性能,并且成本低廉。在我们训练下一代 Mosaic MPT 模型时,Trainium2 将使更快地构建模型成为可能,使我们能够为客户提供前所未有的规模和性能,使他们能够更快地将自己的生成式 AI 应用程序推向市场。“
Naveen Rao,Databricks 生成式人工智能副总裁
Stockmark 有限公司
Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。
“我们拥有由AWS Trainium芯片提供支持的16个亚马逊EC2 Trn1实例节点,开发并发布了stockmark-13b,这是一种具有130亿个参数的大型语言模型,在包含220亿个令牌的日本语语料库上从头开始进行预训练。该语料库包含截至 2023 年 9 月的最新商业领域文本。与其他同等模型相比,该模型在 JGLUE(日语通用语言理解评估)基准上获得了最高的 JSQuAD 分数(0.813)。它可以在 Hugging Face Hub 上找到,并且可以在 MIT 许可下用于商业用途。与同等 GPU 实例相比,Trn1 实例帮助我们降低了 20% 的训练成本。“
Kosuke Arima,Stockmark Co., Ltd. 首席技术官
理光
RICOH 提供工作场所解决方案和数字化转型服务,旨在管理和优化企业间的信息流。
“迁移到 Trn1 实例非常简单。我们在短短 8 天内就完成了 13B 参数模型的训练。在这一成功的基础上,我们期待在 Trainium 上开发和训练我们的 70B 参数模型,并对这些实例在更快、更具成本效益地训练我们的模型方面的潜力感到兴奋。“
Yoshiaki Umetsu,RICOH 数字技术开发中心主任
HelixON
“在HelixON,我们为基于蛋白质的疗法构建下一代人工智能解决方案。我们的目标是开发人工智能工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。今天,我们使用像 FSDP 这样的训练分发库在许多基于 GPU 的服务器上并行化模型训练,但这仍然需要我们花费数周时间来训练一个模型。我们很高兴利用具有 AWS 中最高网络带宽 (800 Gbps) 的 Amazon EC2 Trn1 实例来提高分布式训练任务的性能,缩短模型训练时间,同时降低我们的培训成本。“
Helixon 首席执行官 Jian Peng
Money Forward, Inc.
Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。
“我们在Amazon EC2 Inf1实例上启动了大规模的人工智能聊天机器人服务,与基于GPU的同类实例相比,我们的推理延迟减少了97%,同时还降低了成本。由于我们会定期对定制的 NLP 模型进行微调,因此减少模型训练时间和成本也很重要。根据我们在 Inf1 实例上成功迁移推理工作负载的经验,以及我们在基于 AWS Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端机器学习性能和成本方面提供额外价值。“
Money Forward, Inc. 首席技术官 Takuya Nakade
Magic
Magic 是一家综合产品和研究公司,开发如同事一般的 AI,让世界变得更有效率。
“训练基于 Transformer 的大型自回归模型是我们工作的重要组成部分。AWS Trainium 支持的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速的节点间网络以及对 16 位和 8 位数据类型的高级支持。Trn1 实例将帮助我们以更低的成本更快地训练大型模型。我们对 Trainium 原生支持 BF16 随机舍入感到特别兴奋,它提高了性能,同时数值精度与全精度没有区别。“
Magic 联合创始人兼首席执行官 Eric Steinberger
仙人掌通讯
CACTUS 为研究人员和组织提供了一套产品和解决方案,以改善研究的资助、出版、交流和发现方式。
“在Cactus Labs,我们利用人工智能的力量,研究重点是自然语言处理、排名和推荐、对话式人工智能、大型语言模型、计算机视觉、AR/VR 和 XAI。为了实现更快地训练机器学习模型以及使我们的研究人员能够在管理基础设施成本的同时进行更多实验,我们很高兴评估 AWS Trainium。AWS Trainium 的 XLA 优化、多工作器数据并行训练和图形缓存等开箱即用功能对我们缩短训练时间、帮助我们更快、更便宜地进行更多实验非常有用。“
Cactus Communication 首席技术官兼新兴产品负责人 Nishchay Shah
Watashiha
Watashiha 提供了一种创新的交互式 AI 聊天机器人服务 “OGIRI AI”,它融入了幽默感,可以当场为问题提供有趣的答案。
“我们使用大型语言模型来融入幽默感,并在我们的人工智能服务上为客户提供更相关的对话体验。这要求我们经常对这些模型进行预先训练和微调。我们利用张量和数据并行性在 EC2 Trn1.32xlarge 实例上预先训练了基于 GPT 的日语模型。训练在 28 天内完成,与之前基于 GPU 的基础设施相比,成本降低了 33%。随着我们的模型复杂性持续快速增长,我们期待 Trn1n 实例的网络带宽是 Trn1 的两倍,可以加快大型模型的训练。“
Yohei Kobashi,Watashiha, K.K. 首席技术官
PyTorch
“在 PyTorch,我们加快将机器学习从研究原型设计转变为可供客户准备的生产。我们与 AWS 团队广泛合作,为新的 AWS Trainium 驱动的 Amazon EC2 Trn1 实例提供原生 PyTorch 支持,这些实例专为训练深度学习模型而构建。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练。此外,我们与 OpenXLA 社区合作,启用 PyTorch 分布式库,以便轻松将模型从基于 GPU 的实例迁移到 Trn1 实例。我们对 Trn1 实例为 PyTorch 社区带来的创新感到兴奋,包括更高效的数据类型、动态形状、自定义运算符、硬件优化的随机舍入和紧急调试模式。所有这些使得 Trn1 非常适合 PyTorch 开发人员的广泛采用,我们期待未来共同为 PyTorch 做出贡献,以进一步优化训练性能。“
Geeta Chauhan,PyTorch 应用 AI 工程经理
Hugging Face
“Hugging Face的使命是普及优秀的机器学习,以帮助世界各地的机器学习开发人员解决现实世界中的问题。实现这一目标的关键是确保最新、最好的模型在云端最好的机器学习芯片上尽可能快速、高效地运行。Inferentia2 有可能成为大规模部署生成式人工智能模型的新标准方式,我们对此感到非常兴奋。在 Inf1 中,我们看到与基于 GPU 的传统实例相比,成本降低了高达 70%,而在 Inf2 中,我们看到类似 BERT 的 Transformers 的延迟低至 Inferentia1 的 1/8。借助Inferentia2,我们的社区将能够轻松地将这种性能扩展到100B+参数范围内的LLM,也可以扩展到最新的扩散和计算机视觉模型。“
Amazon
“我们正在训练大型语言模型 (LLM),这些模型是多模式(文本+图像)、多语言、多区域的、针对多个任务进行预先训练的,并且跨越多个实体(产品、查询、品牌、评论等),以改善客户的购物体验。与其他加速机器学习解决方案相比,Trn1 实例提供了一种更可持续的方式来训练 LLM,它提供了最佳的性能功耗比,并以最低的成本为我们提供了高性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。“
Trishul Chilimbi,Amazon Search 副总裁
开始使用
您可以使用 Amazon SageMaker 在 Trn1 实例上轻松训练模型。显著减少训练和调整 ML 模型的时间和成本,而无需管理基础设施。借助 SageMaker,您可以使用内置工具来管理和跟踪训练实验、自动选择最佳超参数、调试训练作业以及监控系统资源的使用情况。
AWS Deep Learning AMI(DLAMI)可以为深度学习(DL)从业人员和研究人员提供基础设施和各种工具,从而加快在 AWS 上进行任意规模的深度学习的速度。AWS Neuron 驱动程序已在 DLAMI 中预先配置,可在 Trn1 实例上以最佳方式训练您的深度学习模型。
您现在可以在完全托管的 Kubernetes 服务 Amazon Elastic Kubernetes Service(EKS)和完全托管的容器编排服务 Amazon Elastic Container Service(ECS)中部署 Trn1 实例。AWS Deep Learning Containers 中还预装了 Neuron。要了解有关在 Trn1 实例上运行容器的更多信息,请参阅 Neuron 容器教程。
产品详细信息
|
Instance Size
|
Trainium Chips
|
Accelerator Memory (GB)
|
vCPUs
|
Instance Memory (GiB)
|
Local NVMe Storage (TB)
|
Network Bandwidth (Gbps)
|
EFA and RDMA Support
|
EBS Bandwidth (Gbps)
|
On-Demand Price per Hour
|
1-Year Reserved Instance Effective Hourly*
|
3-Year Reserved Instance Effective Hourly*
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
trn1.2xlarge
|
1
|
32
|
8
|
32
|
0.5
|
最高 12.5
|
否
|
最高 20
|
1.34 USD
|
0.79 USD
|
0.4744 USD
|
|
trn1.32xlarge
|
16
|
512
|
128
|
512
|
8
|
800
|
是
|
80
|
21.50 USD
|
12.60 USD
|
7.59 USD
|
|
trn1n.32xlarge
|
16
|
512
|
128
|
512
|
8
|
1600
|
是
|
80
|
24.78 USD
|
14.52 USD
|
8.59 USD
|