AWS Trainium

AWS 专门打造的高性能机器学习训练加速器

AWS Trainium 是 AWS 专门为超过 1000 亿个参数模型的深度学习训练打造的第二代机器学习 (ML) 加速器。每个 Amazon Elastic Compute Cloud (EC2) Trn1 实例可部署多达 16 个 AWS Trainium 加速器,为云中的深度学习 (DL) 培训提供高性能、低成本的解决方案。尽管深度学习的使用正在加速,但许多开发团队受到固定预算的限制,导致其改进其模型和应用程序所需的训练范围和频率受限。基于 Trainium 的 EC2 Trn1 实例通过提供更快的训练时间解决了这一挑战,同时与同类 Amazon EC2 实例相比,可节省高达 50% 的训练成本。Trainium 已针对训练自然语言处理、计算机视觉和推荐器模型进行了优化,这些模型用于文本摘要、代码生成、问题解答、图像和视频生成、推荐和欺诈检测等各种应用程序。

优势

专为高性能深度学习训练而设计

每个 Trainium 加速器都包含两个专为深度学习算法而构建的第二代 NeuronCore。为了支持高效的数据和模型并行,每个 Trainium 加速器具有 32GB 的高带宽内存,提供高达 190 TFLOPS 的 FP16/BF16 计算能力,并采用 NeuronLink,这是一种实例内、超高速非阻塞互连技术。

针对最先进的模型进行了优化

Trainium 原生支持多种数据类型(FP32、TF32、BF16、FP16、UINT8 和可配置的 FP8)。它支持硬件加速随机舍入,与传统舍入模式相比,可提供高性能和更高的准确度。Trainium 还为用 C++ 编写的控制流和自定义运算符提供支持,为您的培训需求提供灵活、面向未来的基础设施。

多种 ML 框架和库

支持 Trainium 的 AWS Neuron SDK 与 PyTorch 和 TensorFlow 原生集成。这确保您可以继续在这些热门的框架中使用现有的工作流程,并且只需更改几行代码即可开始使用 Trainium。对于分布式模型训练,Neuron SDK 支持诸如 Megatron-LM 和 PyTorch 全分片数据并行(FSDP)等库。要快速开始使用基于 Trainium 的 EC2 Trn1 实例,请参阅 Neuron 文档中的热门模型示例。

AWS Neuron SDK

AWS Neuron 是一个开发工具包,由编译器、运行时和分析工具组成,您可以使用这些工具在 AWS Trainium 支持的 Amazon EC2 Trn1 实例上运行高性能训练。通过使用 Neuron,您可以在 TensorFlow 和 PyTorch 等热门框架中使用现有工作流程,并在 EC2 Trn1 实例上进行最佳训练,只需进行极少的代码更改。Neuron 已预配置在 AWS Deep Learning AMI (DLAMI) 和 AWS Deep Learning Containers 中,让您可以轻松开始使用 Trn1 实例。

了解更多 »

AWS Inferentia

AWS Inferentia 是 AWS 设计的一款机器学习推理加速器,可在云中提供高性能和低成本的机器学习推理。Amazon EC2 Inf1 实例基于 AWS Inferentia 加速器,与同类 Amazon EC2 实例相比,吞吐量可提高多达 2.3 倍,每次推理的成本可降低多达 70%。

了解详情 »

注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建

开始使用 AWS 控制台。

登录