发布于: Apr 13, 2023

今天,AWS 宣布全面推出 Amazon Elastic Compute Cloud (Amazon EC2) Inf2 实例。此类实例在 Amazon EC2 中以最低的成本为生成式人工智能模型(包括大型语言模型 [LLM] 和视觉转换器)提供高性能。Inf2 实例由多达 12 个 AWS Inferentia2 芯片提供支持,这是 AWS 设计的最新深度学习 (DL) 加速器。与第一代 Amazon EC2 Inf1 实例相比,它们的吞吐量提高了 4 倍,延迟降低了 10 倍。

您可以使用 Inf2 实例运行常用应用程序,例如文本摘要、代码生成、视频和图像生成、语音识别、个性化等。Inf2 实例是 Amazon EC2 中的首个推理优化型实例,引入由 NeuronLink 支持的横向扩展分布式推理,NeuronLink 是一种高速非阻塞互连技术。您现在可以在 Inf2 实例上跨多个加速器有效部署具有数千亿个参数的模型。相较于其他类似的 Amazon EC2 实例,Inf2 实例的吞吐量提高了 3 倍,延迟降低到了 1/8,性价比提高了 40%。为了帮助您实现可持续性目标,与其他类似的 Amazon EC2 实例相比,Inf2 实例的每瓦性能提高了 50%。

Inf2 实例提供每秒 2.3 千万亿次浮点运算的 DL 性能、384GB 的加速器总内存和每秒 9.8TB 的带宽。AWS Neuron SDK 与 PyTorch 和 TensorFlow 等流行的机器学习框架原生集成。因此,您可以继续使用现有的框架和应用程序代码在 Inf2 上部署。开发人员可以通过 AWS 深度学习 AMI、AWS 深度学习容器或 Amazon Elastic Container Service (Amazon ECS)、Amazon Elastic Kubernetes Service (Amazon EKS) 和 Amazon SageMaker 等托管服务开始使用 Inf2 实例。

Inf2 实例有四种大小可供选择:inf2.xlarge、inf2.8xlarge、inf2.24xlarge、inf2.48xlarge。此类实例在以下 AWS 区域作为按需型实例、预留实例和竞价型实例,或作为 Savings Plan 的一部分提供:美国东部(弗吉尼亚州北部)和美国东部(俄亥俄州)。 

要了解有关 Inf2 实例的更多信息,请参阅 Amazon EC2 Inf2 实例网页AWS Neuron 文档