发布于: Oct 10, 2022

AWS Neuron 添加了对 AWS Trainium 支持的 Amazon EC2 Trn1 实例的支持,以大规模解锁高性能、经济高效的深度学习训练。Neuron SDK 包括编译器、运行时库以及与热门 ML 框架(如 PyTorch 和 Tensorflow)集成的分析工具。随着 Neuron 2.x 的首次发布,开发人员现在可以在 Trn1 实例上运行深度学习训练工作负载,与基于 GPU 的同类 EC2 实例相比可节省高达 50% 的训练成本,同时为热门 NLP 模型获取 AWS Cloud 中的最高训练性能。 

Neuron 添加了对训练深度学习模型的支持,从语言模型开始,然后是其他模型系列,包括视觉模型 [如 Neuron 路线图中所述]。在语言模型下,此版本的 Neuron 支持转换编码器/自动编码器和转换解码器/自回归模型架构,如 GPT。为了帮助加快开发人员工作流速度并更好地了解训练工作负载,Neuron 现在支持在 Eager 调试模式下使用提供性能和利用率信息的工具实现无缝实时编译和分步执行

为了帮助开发人员利用 Trainium 创新并最大限度地提高性能和成本效益,Neuron 解锁了各种硬件优化。它支持 FP32、TF32、FP16 和 BF16 数据类型以及从 FP32 到 TF32、BF16 和 FP16 的自动转换。它还添加了对硬件加速随机舍入的支持,使训练以 BF16 速度进行,从 FP32 自动转换到 BF16 时,FP32 精度范围更大。

为支持 Trn1 UltraCluster 中跨加速器的大规模模型分布式训练,Neuron 添加了对各种集体计算操作和 800Gbps 的 EFA 联网(这是 AWS Cloud 中目前提供的最高联网带宽)的支持。Neuron 还在公共 gitHub 存储库中提供对分布式训练库(如 Megatron-LM)的支持。

开发人员可以在 Trn1 实例上使用 AWS 深度学习 AMI、AWS 深度学习容器或托管服务(如 Amazon Elastic Container Service (Amazon ECS) 和 AWS ParallelCluster)运行 DL 训练工作负载,并很快支持 Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon SageMaker 和 AWS Batch。 为了帮助开发人员入门,此版本提供了对 HuggingFace BERT 大型的预训练和微调以及对 Megatron-LM GPT3 (6.7B) 模型的预训练。

Trn1 实例在以下 AWS 区域作为按需型实例、预留实例和竞价型实例,或作为 Savings Plan 的一部分提供:美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)。要开始使用 Trn1 实例,请参阅 Neuron文档。有关此版本中的功能、增强功能和更改的完整列表,请查看发行说明。要了解即将推出的各项功能,请参阅 Neuron 路线图。