AWS 人工智能芯片

AWS Inferentia

在 Amazon EC2 中以最低的成本获得深度学习和生成式人工智能推理所需的高性能

为什么选择 Inferentia？

AWS Inferentia 芯片由 AWS 设计，旨在以最低的成本在 Amazon EC2 中为深度学习（DL）和生成式人工智能推理应用程序提供高性能。

第一代 AWS Inferentia 芯片为 Amazon Elastic Compute Cloud（Amazon EC2）Inf1 实例提供支持，与同类 Amazon EC2 实例相比，该实例的吞吐量可提高多达 2.3 倍，每次推理的成本可降低多达 70%。包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa 在内的许多客户都已采用 Inf1 实例，并已实现其性能和成本优势。

与 Inferentia 相比，AWS Inferentia2 芯片的吞吐量提高 4 倍，延迟低至前者的 1/10。基于 Inferentia2 的 Amazon EC2 Inf2 实例经过优化，可大规模部署日益复杂的模型，例如大语言模型（LLM）和潜在扩散模型。Inf2 实例是 Amazon EC2 中的首个推理优化实例，可通过芯片之间的超高速连接支持横向扩展分布式推理。包括 Leonardo.ai、德国电信和 Qualtrics 在内的许多客户已在其深度学习和生成式人工智能应用程序中采用 Inf2 实例。

AWS Neuron SDK 可帮助开发人员在两种 AWS Inferentia 芯片上部署模型，然后在 AWS Trainium 芯片上进行训练。其与 PyTorch 和 TensorFlow 等热门框架原生集成，以便继续使用现有的代码和工作流程，并且在 Inferentia 芯片上运行。

AWS Inferentia 的优势

每个第一代 Inferentia 芯片都已搭载四个第一代 NeuronCore，每个 EC2 Inf1 实例最多有 16 个 Inferentia 芯片。每个 Inferentia2 芯片都已搭载两个第二代 NeuronCore，每个 EC2 Inf2 实例最多有 12 个 Inferentia2 芯片。每个 Inferentia2 芯片支持高达每秒 190 万亿次浮点运算（TFLOPS）的 FP16 性能。第一代 Inferentia 每个芯片都有 8 GB 的 DDR4 内存，并且还具有大容量片上内存。Inferentia2 为每个芯片提供 32 GB 的 HBM，与 Inferentia 相比，总内存增加 4 倍，内存带宽增加 10 倍。

AWS Neuron SDK 与 PyTorch 和 TensorFlow 等常用 ML 框架原生集成。借助 AWS Neuron，可使用这些框架在两种 AWS Inferentia 芯片上以最佳方式部署 DL 模型，并且 Neuron 设计为最大程度减少代码更改以及与特定供应商解决方案的绑定。 Neuron 有助于在 Inferentia 芯片上运行推理应用程序，以实现自然语言处理（NLP）/理解、语言翻译、文本摘要、视频和图像生成、语音识别、个性化、欺诈检测等功能。

第一代 Inferentia 支持 FP16、BF16 和 INT8 数据类型。Inferentia2 添加了对 FP32、TF32 和新的可配置 FP8（cFP8）数据类型的额外支持，为开发人员提供了更大的灵活性，可以优化性能和准确性。AWS Neuron 采用高精度 FP32 模型，并自动将它们转换为精度较低的数据类型，同时优化了准确性和性能。Autocasting 可消除对低精度再培训的需求，以缩短上市时间。

Inferentia2 为动态输入大小和用 C++ 编写的自定义运算符添加了硬件优化。还支持随机舍入，这是一种概率舍入方式，与传统舍入模式相比，其可实现高性能和更高的精度。

与同类的 Amazon EC2 实例相比，Inf2 实例可实现高达 50% 的性能功耗比提升，因为其和底层 Inferentia2 芯片专为大规模运行 DL 模型而构建。Inf2 实例有助于在部署超大型模型时实现可持续发展目标。

Karakuri

了解 Karakuri 如何使用 AWS Inferentia 在控制成本的同时提供高性能人工智能

观看视频

Metagenomi

了解 Metagenomi 如何使用 AWS Inferentia 将大规模蛋白质设计成本降低多达 56%

阅读博客

NetoAI

了解 NetoAI 如何使用 AWS Inferentia2 实现 300-600 毫秒的推理延迟

阅读客户评价

Tomofun

了解 Tomofun 如何通过迁移到 AWS Inferentia 将 BLIP 推理部署成本降低 83%

阅读客户评价

SplashMusic

了解 SplashMusic 如何通过使用 AWS Inferentia 将
推理延迟降低多达 10 倍

阅读客户评价

Leonardo.ai

我们的 Leonardo 团队利用生成式人工智能，使创意专业人士和爱好者能够制作出具有无与伦比的质量、速度和风格一致性的视觉资产。通过使用 AWS Inferentia2，我们能够在不牺牲性能的情况下将成本降低 80%，从根本上改变我们可以为客户提供的价值主张，从而以更实惠的价格实现我们最先进的功能。它还减轻了人们对辅助人工智能服务的成本和容量可用性的担忧，随着我们的发展和规模扩大，这些服务变得越来越重要。对于我们来说，这是一项关键的支持技术，我们将继续挑战生成式人工智能的极限，为我们的用户开启创造力和表达力的新时代。

Pete Werner，Leonardo.ai 人工智能主管

Qualtrics

Qualtrics 设计和开发体验管理软件。

在 Qualtrics，我们的工作重点是构建技术，以缩小客户、员工、品牌和产品的体验差距。为实现这一目标，我们正在开发复杂的多任务、多模式 DL 模型以推出新功能，例如文本分类、序列标记、话语分析、关键短语提取、主题提取、集群和端到端对话理解。随着我们在更多应用中使用这些更复杂的模型，非结构化数据量不断增长，我们需要更高性能的推理优化优化解决方案（例如 Inf2 实例）来满足这些需求，为我们的客户提供最佳体验。我们对新的 Inf2 实例感到兴奋，因为它不仅可以让我们实现更高的吞吐量，同时显著降低延迟，而且还引入了分布式推理和增强的动态输入形状支持等功能，这将有助于进行扩展，从而在向更大、更复杂的大型模型发展时满足部署需求。

Aaron Colak，Qualtrics 核心机器学习主管

Finch Computing

Finch Computing 是一家自然语言技术公司，为政府、金融服务和数据集成商客户提供人工智能应用程序。

为了满足客户对实时 NLP 的需求，我们开发了可扩展到大型生产工作负载的先进 DL 模型。我们必须提供低延迟事务处理并实现高吞吐量，以处理全球数据馈送。我们已经将许多生产工作负载迁移到 Inf1 实例，并且实现了与 GPU 相比 80% 的成本节约。现在，我们正在开发更大、更复杂的模型，以便从书面文本中获得更深刻、更有洞察力的意义。我们的许多客户需要实时访问这些洞察，Inf2 实例的性能将帮助我们提供比 Inf1 实例更低的延迟和更高的吞吐量。随着 Inf2 性能改进和新的 Inf2 功能，例如支持动态输入大小，我们正在改善我们的成本效率，提升实时客户体验，并帮助我们的客户从他们的数据中收集新的洞察。

Franz Weckesser，Finch Computing 首席架构师

Dataminr

我们以多种语言、不同的格式（图像、视频、音频、文本传感器、所有这些类型的组合）对世界各地成千上万个来源的多种类型的事件发布提醒。考虑到这种规模，优化速度和成本对我们的业务至关重要。借助 AWS Inferentia，我们降低了模型延迟，使每美元吞吐量提高了 9 倍。这使我们能够部署更复杂的 DL 模型，在控制成本的同时，使处理的数据量增加 5 倍，从而提高模型的准确性并增强平台的功能。

Alex Jaimes，Dataminr 首席科学家兼人工智能高级副总裁

Snap Inc.

我们将机器学习融入 Snapchat 的很多方面，在此领域探索创新是重中之重。我们一听说 Inferentia 就开始与 AWS 合作采用 Inf1/Inferentia 实例来帮助我们进行 ML 部署，包括性能和成本方面。我们用自己的推荐模型开始，并期待未来将更多模型用于 Inf1 实例。

Nima Khajehnouri，Snap Inc. 的工程副总裁

Sprinklr

通过 Sprinklr 的 AI 驱动型统一客户体验管理（统一 CXM）平台，公司能够收集多个渠道中的实时客户反馈，并将其转化为可实施的洞察 – 从而形成主动的问题解决方法、增强的产品开发、改进的内容营销、更好的客户体验，等等。使用 Amazon EC2 Inf1，我们能够显著地提高我们的 NLP 模型之一的性能，还能提高我们的计算机视觉模型之一的性能。我们期待继续使用 Amazon EC2 Inf1 更好地为全球客户服务。

Vasant Srinivasan，Sprinklr 产品工程高级副总裁

Autodesk

Autodesk 正在通过使用 Inferentia 来推进我们的人工智能虚拟助手——Autodesk 虚拟代理（AVA）的认知技术。AVA 通过应用自然语言理解（NLU）和 DL 技术来提取查询背后的上下文、意图和意义，每月解答超过 10 万个客户问题。试用 Inferentia 后，对于 NLU 模型，我们能够获得比 G4dn 高 4.9 倍的吞吐量，并期望在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。

Binghui Ouyang，Autodesk 高级数据科学家

Screening Eagle Technologies

探地雷达的使用和视觉缺陷的检测通常是专家测量师的领域。基于 AWS 微服务的架构使我们能够处理自动检查车辆和检查员拍摄的视频。通过将我们的内部构建模型从传统的基于 GPU 的实例迁移到 Inferentia，我们可以将成本降低 50%。此外，当与 G4dn GPU 实例进行时间比较时，我们能够看到性能的提高。我们的团队期待在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。

Jesús Hormigo，Screening Eagle Technologies 首席云和人工智能官

NTT PC Communications Inc.

NTT PC Communications 是日本的网络服务和通信解决方案提供商，在推出信息和通信技术市场创新产品方面，处于电信行业领先地位。

NTT PC 开发了“AnyMotion”，这是一个基于高级姿势估计 ML 模型的运动分析 API 平台服务。我们使用 Amazon ECS 在 Amazon EC2 Inf1 实例上部署了 AnyMotion 平台，以提供完全托管的容器编排服务。通过在 Amazon EC2 Inf1 上部署 AnyMotion 容器，与当前一代基于 GPU 的 EC2 实例相比，我们的吞吐量提高到了原来的 4.5 倍，推理延迟降低了 25%，成本降低了 90%。这些卓越的成果将有助于大规模提高 AnyMotion 服务的质量。

Toshiki Yanagisawa，NTT PC Communications Inc. 软件工程师

Anthem

Anthem 是美国领先的医疗福利公司之一，他们提供的服务能满足数十个州 4000 多万会员的医疗保健需求。

数字健康平台市场正以惊人的速度增长。由于庞大的客户意见数据及其非结构化性质，在这个市场上收集情报是一项具有挑战性的任务。我们的应用程序通过 DL 的自然语言模型（Transformers）自动生成来自客户意见的可操作见解。我们的应用程序属于计算密集型，需要以高性能的方式进行部署。我们无缝地将 DL 推理工作负载部署到由 AWS Inferentia 处理器支持的 Amazon EC2 Inf1 实例。新的 Inf1 实例可为基于 GPU 的实例提供 2 倍吞吐量，使我们能够简化推理工作负载。

Numan Laanait 和 Miro Mihaylov 博士，Anthem 首席人工智能/数据科学家

视频

探秘 Amazon 的生成式人工智能基础设施

介绍由 AWS Inferentia2 提供支持的 Amazon EC2 Inf2 实例

四位 AWS 客户如何使用 AWS Inferentia 降低 ML 成本和推动创新

资源

博客

使用 AWS Inferentia 和 AWS Trainium 在 Amazon SageMaker JumpStart 中经济高效地微调和部署 Llama 2 模型

阅读博客

博客

开始使用 AWS Inferentia

了解更多

控制台

开始在控制台中构建

免费套餐

推理示例/教程（Inf2/Trn1）

了解更多

AWS Inferentia

为什么选择 Inferentia？

AWS Inferentia 的优势

针对高吞吐量和低延迟进行了优化

对 ML 框架的原生支持

具有自动转换功能的广泛数据类型

先进的深度学习功能

专为可持续性打造

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

视频

资源

使用 AWS Inferentia 和 AWS Trainium 在 Amazon SageMaker JumpStart 中经济高效地微调和部署 Llama 2 模型

使用 QLoRA 对 Llama 2 进行微调，然后使用 AWS Inferentia2 将其部署到 Amazon SageMaker 上

使用 AWS Inferentia2 最大程度地提高稳定扩散性能并降低推理成本

利用 Amazon SageMaker 上的 AWS Inferentia2 和 AWS Trainium，实现低成本、高质量的生成式人工智能推理

字节跳动使用 AWS Inferentia 实现高达 60% 的推理成本节省，同时减少延迟并提高吞吐量

Amazon Search 如何使用 AWS Inferentia 将 ML 推理成本降低 85%

使用 AWS Neuron 并从 TensorFlow、PyTorch 或 MXNet 中开始使用 AWS Inferentia

AWS Neuron 功能路线图

使用这些简单教程开始在 AWS Inferentia 上进行推理

开始使用 AWS Inferentia

开始在控制台中构建

推理示例/教程（Inf2/Trn1）

了解

资源

开发人员

帮助