发布于: Oct 10, 2022

AWS 宣布正式推出 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 实例。Amazon EC2 Trn1 实例由 AWS Trainium 芯片提供支持,这些芯片专为云中的高性能 ML 训练应用程序而构建。 Trn1 实例在 AWS 上的热门自然语言处理 (NLP) 模型的深度学习 (DL) 训练方面提供了最高的性能,同时与基于 GPU 的同类 EC2 实例相比,节省了高达 50% 的成本。通过使用热门 ML 框架(如 PyTorch 和 TensorFlow),您可以开始使用 Trn1 实例,从而帮助您降低训练成本、减少训练时间、更快地迭代以构建更具创新性的模型,并提高生产力。您可以使用 EC2 Trn1 实例在广泛的应用程序中训练自然语言处理 (NLP)、计算机视觉和推荐模型,例如语音识别、推荐、欺诈检测、图像和视频分类以及预测。 

Trn1 实例最多具有 16 个 AWS Trainium 芯片,这是 AWS Inferentia 之后由 AWS 构建的第二代 ML 芯片。Trn1 实例是第一批具有高达 800Gbps 的 Elastic Fabric Adapter (EFA) 网络带宽的 EC2 实例。为了实现高效的数据和模型并行性,每个 Trn1 实例都有 512GB 的高带宽内存,提供高达 3.4 PetaFLOPS 的 FP16/BF16 计算能力,并具有 NeuronLink,这是一种实例内高带宽非阻塞互连。为了支持大规模深度学习模型,在 EC2 UltraClusters 中部署了 Trn1 实例。您将能够使用 UltraClusters 扩展到多达 30,000 个 Trainium 加速器,这些加速器与一个非阻塞的 PB 级网络互连,并可以按需访问一台计算能力为 6.3 ExaFLOPS 的超级计算机。Trn1 实例本机支持广泛的数据类型,包括新的可配置 FP8、动态输入形状、控制流、C++ 自定义运算符和随机舍入。AWS Neuron SDK 解锁了这些高级功能,并添加了对即时 (JIT) 编译和紧急调试模式的支持。AWS Neuron 与领先的 ML 框架和库(如 PyTorch、TensorFlow、Megatron-LM、Hugging Face、PyTorch FSDP)集成,因此您可以继续使用现有框架,并以最少的代码更改运行应用程序。

开发人员可以在 Trn1 实例上使用 AWS 深度学习 AMI、AWS 深度学习容器或托管服务(如 Amazon Elastic Container Service (Amazon ECS) 和 AWS ParallelCluster)运行 DL 训练工作负载,并很快支持 Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon SageMaker 和 AWS Batch。

Amazon EC2 Trn1 实例有两种大小:trn1.2xlarge(用于试验单个加速器并经济高效地训练小型模型),trn1.32xlarge(用于训练大型模型)。它们在以下 AWS 区域作为按需型实例、预留实例和竞价型实例,或作为 Savings Plan 的一部分提供:美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)。 

要了解有关 Trn1 实例的更多信息,请参阅 Amazon EC2 Trn1 实例