Amazon EC2 Inf1 实例

云端的高性能和更低成本机器学习推理

各个行业的企业都在逐渐转向采用机器学习技术来解决各种使用案例,例如提供个性化的购物建议、改善在线内容审核,以及通过情景感知 Chatbot 改善客户互动。但是,随着机器学习模型的功能越来越强大,它们也变得越来越复杂。这推动了计算需求,从而增加了成本。在许多情况下,开发和运行机器学习应用程序的基础设施支出中有高达 90% 是推理相关支出,因此对高性能、经济高效的机器学习推断基础设施的需求显得尤为重要。

与 Amazon EC2 G4 实例相比,Amazon EC2 Inf1 实例的吞吐量提高了 30%,单次推理的成本降低了 45%,而 Amazon EC2 G4 实例先前一直是云端机器学习推理成本最低的实例。Inf1 实例的构建目的就是用于支持机器学习推理应用程序。这些实例具有多达 16 个 AWS Inferentia 芯片,这是由 AWS 设计和打造的高性能机器学习推理芯片。另外,Inf1 实例包含最新的第二代 Intel® Xeon® 可扩展处理器以及高达 100Gbps 的网络,可实现高吞吐量推理。借助 Inf1 实例,客户可以在云中以最低的成本运行大规模机器学习推理应用程序,例如搜索建议、计算机视觉、语音识别、自然语言处理、个性化和欺诈检测。

开发人员可以使用 AWS Neuron 开发工具包将其机器学习模型部署到 Inf1 实例,该开发工具包集成了 TensorFlow、PyTorch 和 MXNet 等受欢迎的机器学习框架。它包含一个编译器、一个运行时和各种分析工具,可优化 AWS Inferentia 的推理性能。开始使用 Inf1 实例的最简单和最快速的方法是通过 Amazon SageMaker,这是一个完全托管的服务,使开发人员能够快速构建、训练和部署机器学习模型。希望自行管理机器学习应用程序开发平台的开发人员可以通过包括 Neuron 开发工具包的 AWS Deep Learning AMI 启动 Inf1 实例开始使用,也可以通过适用于容器化机器学习应用程序的 Amazon Elastic Kubernetes Service (EKS) 或 Amazon Elastic Container Service (ECS) 来使用 Inf1 实例。

SiteMerch-EC2-Instances_accelerated-trial_2up

免费试用:最高 10000 USD 的 AWS 服务抵扣金,适用于 EC2 硬件加速实例,适合机器学习、高性能计算和图形应用程序。

单击此处申请 
基于 AWS Inferentia 的 Amazon EC2 Inf1 实例 (2:51)

优势

每次推理的成本降低多达 45%

Inf1 实例的高吞吐量实现了最低的每次云端推理成本,每次推理的成本比 Amazon EC2 G4 实例降低了 45%,而 Amazon EC2 G4 实例先前一直是云端机器学习推理成本最低的实例。机器学习推理最多占运行机器学习工作负载的总体运营成本的 90%,因此可节省大量成本。

吞吐量提高多达 30%

Inf1 实例可为批量推理应用程序提供高吞吐量,其吞吐量较 Amazon EC2 G4 实例最多提高 30%。批量推理应用程序(例如照片标记)对推理吞吐量或每秒可以处理的推理量很敏感。Inf1 实例经过优化,可为小批量推理提供高性能,这对于具有严格响应时间要求的应用程序至关重要。每个 Inf1 实例具有 1 到 16 个 AWS Inferentia 芯片,可以将性能扩展到每秒多达 2000 万亿次运算 (TOPS)。

超低延迟

Inf1 实例为实时应用程序提供了低延迟。诸如语音生成和搜索之类的实时推理应用程序需要根据用户的输入快速做出推理,并且对推理延迟很敏感。Inf1 实例中使用的 AWS Inferentia 芯片拥有较大的芯片上内存容量,允许直接在芯片上缓存机器学习模型。这消除了在推理期间访问外部内存资源的需求,从而实现了低延迟,而不会影响带宽。

机器学习推理适用于广泛的使用案例

开发人员可以利用 Inf1 实例的高性能、低延迟和低成本推理,适用于各种垂直业务领域的广泛机器学习应用程序,包括图像和视频分析、对话聊天代理、欺诈检测、财务预测、医疗保健自动化、推荐引擎、文本分析和转录。

易用性和代码可移植性

由于 Neurone 开发工具包与 TensorFlow 和 PyTorch 等通用机器学习框架集成,因此开发人员可以将其现有模型部署到 EC2 Inf1 实例中,而只需最少的代码更改。于是,开发人员可以继续自由选择使用机器学习框架,选用最能满足其性价比要求的计算平台,并利用最新技术,而不必与供应商特定的软件库相关联。

支持不同机器学习模型和数据类型

使用 AWS Neuron,Inf1 实例支持许多常用机器学习模型,例如用于图像识别/分类的单发检测器 (SSD) 和 ResNet,以及用于自然语言处理和翻译的 Transformer 和 BERT。支持使用混合精度的多种数据类型,包括 INT8、BF16 和 FP16,以满足各种模型和性能需求。

功能

由 AWS Inferentia 提供支持

AWS Inferentia 是一种机器学习芯片,由 AWS 自定义设计和打造,旨在以低成本提供高性能推理。每个 AWS Inferentia 芯片提供高达 128TOPS(每秒数万亿次运行)的性能,并且支持 FP16、BF16 和 INT8 数据类型。AWS Inferentia 芯片还具有大量的芯片上内存,可用于缓存大型模型,这对于需要频繁访问内存的模型尤为有利。

AWS Neuron 软件开发工具包 (SDK) 由编译器、运行时和分析工具组成。它支持使用 Inf1 实例执行在常用框架(例如 TensorFlow、PyTorch 和 MXNet)中创建和训练的复杂神经网络模型。AWS Neuron 还支持使用高速物理芯片间互联将大型模型进行拆分,以便在多个 Inferentia 芯片上执行,从而提供高推理吞吐量和更低的推理成本。

高性能联网和存储

对于需要访问高速网络的应用程序,Inf1 实例可提供高达 100Gbps 的联网吞吐量。新一代 Elastic Network Adapter (ENA) 和 NVM Express (NVMe) 技术为 Inf1 实例提供了高吞吐量、低延迟的联网接口和 Amazon Elastic Block Store (Amazon EBS)。

依托 AWS Nitro 系统构建

AWS Nitro 系统是丰富的构建块集合,可将许多传统虚拟化功能卸载到专用硬件和软件中,以提供高性能、高可用性和高安全性,同时还可降低虚拟化开销。

工作原理

如何使用 Inf1 和 AWS Inferentia

客户评价

SkyWatch
“我们将机器学习 (ML) 融入 Snapchat 的很多方面,在此领域探索创新是重中之重。我们一听说 Inferentia 就开始与 AWS 合作采用 Inf1/Inferentia 实例来帮助我们进行 ML 部署,包括性能和成本方面。我们用自己的推荐模型开始,并期待未来将更多模型用于 Inf1 实例。”

Nima Khajehnouri,Snap Inc. 的工程副总裁

Anthem
Anthem 是美国领先的医疗福利公司之一,他们提供的服务能满足数十个州 4000 多万会员的医疗保健需求。“数字健康平台市场正以惊人的速度增长。由于庞大的客户意见数据及其非结构化性质,在这个市场上收集情报是一项具有挑战性的任务。我们的应用程序通过深度学习的自然语言模型 (Transformers) 自动生成来自客户意见的可操作见解。我们的应用程序属于计算密集型,需要以高性能的方式进行部署。我们无缝地将深度学习推理工作负载部署到由 AWS Inferentia 处理器支持的 Amazon EC2 Inf1 实例。新的 Inf1 实例可为基于 GPU 的实例提供 2 倍吞吐量,使我们能够简化推理工作负载。”

Numan Laanait 博士(首席 AI /数据科学家)和 Miro Mihaylov 博士(首席 AI/数据科学家)

Anthem
“Autodesk 正在通过使用 Inferentia 来推进我们的人工智能虚拟助手——Autodesk 虚拟代理 (AVA) 的认知技术。AVA 通过应用自然语言理解 (NLU) 和深度学习技术来提取查询背后的上下文、意图和意义,每月解答超过 10 万个客户问题。试用 Inferentia 后,对于 NLU 模型,我们能够获得比 G4dn 高 4.9 倍的吞吐量,并期望在基于 Inferentia 的 Inf1 实例上运行更多的工作负载。”

Binghui Ouyang,Autodesk 高级数据科学家

Condé Nast
“Condé Nast 的全球投资组合涵盖了 20 多个领先的媒体品牌,包括《连线》、Vogue 和 Vanity Fair 等。在几周内,我们的团队就能将我们的推荐引擎与 AWS Inferentia 芯片集成。这种联合可以在 SageMaker 的 Inf1 实例上对最先进的自然语言模型进行多种运行时优化。结果,我们发现,与之前部署的 GPU 实例相比,成本降低 72%。”

Paul Fryzel,人工智能基础设施首席工程师

Asahi Shimbun
“Asahi Shimbun 是日本最受欢迎的日报之一。Media Lab 作为我们公司的部门之一,肩负研究最新技术(特别是人工智能 (AI))以及为新业务联系尖端技术的使命。随着基于 Amazon EC2 Inf1 实例的 AWS Inferentia 在东京发布,我们在这些实例上测试了基于 PyTorch 的文本摘要人工智能 (AI) 应用程序。该应用程序处理了大量文本,并生成了在过去 30 年文章上进行训练的头条新闻和摘要句子。使用 Inferentia,我们降低了成本,削减了一个数量级的基于 CPU 的实例。成本的大幅下降让我们可以大规模地部署最复杂的模型,而之前从经济角度考虑,我们认为这是不可行的”

Asahi Shimbun Company,Media Lab,高级管理员 Hideaki Tamori 博士

CS Disco
“CS Disco 是由律师为律师开发的电子取证人工智能 (AI) 解决方案的领先供应商提供商,正在重塑法律技术。Disco 人工智能利用复杂的自然语言处理模型,来更快地梳理 TB 级数、加快审核速度和提高审核准确率,这些模型的计算成本高昂,不划算。Disco 发现,与现在的 GPU 实例相比,基于 AWS Inferentia 的 Inf1 实例将 Disco 人工智能的推理成本至少降低了 35%。基于在 Inf1 实例方面的愉快体验,CS Disco 将探索向 Inferentia 迁移的机会。”

Alan Lockett,CS Disco 研究总监

Talroo
“在 Talroo,我们为客户提供数据驱动平台,让客户吸引独特的工作候选人,以便他们完成招聘。我们不断探索新技术,以确保为客户提供最好的产品和服务。使用 Inferentia,我们从大量文本数据中提取见解,以提升人工智能 (AI) 支持的搜索匹配技术。Talroo 利用 Amazon EC2 Inf1 实例以 SageMaker 创建高吞吐量自然语言理解模型。Talroo 的初始测试表明,Amazon EC2 Inf1 实例使推理延迟降低了 40%,与 G4dn 基于 GPU 的实例相比,吞吐量提高了两倍。基于这些结果,Talroo 希望在其 AWS 基础设施中使用 Amazon EC2 Inf1 实例。”

Talroo 软件工程师 Janet Hu

数字媒体专业公司 (DMP)
数字媒体专业公司 (DMP) 通过基于人工智能 (AI) 的实时 ZIA 平台对未来进行可视化。DMP 高效的计算机视觉分类技术可用于构建对大量实时图像数据的洞察,如状态观察、犯罪预防和事故预防。我们正在积极对 Inf1 实例作替代方案评估,因为我们相信 Inferentia 将为我们提供大规模部署 AI 应用程序所需的性能和成本结构。” 

Hiroyuki Umeda - 数字媒体专业公司 (DMP) 销售与营销部总监兼总经理

Hotpot.ai
Hotpot.ai 可帮助非设计师创建具有吸引力的图形,还可帮助专业设计师自动执行重复的任务。“机器学习是我们策略的核心,我们很乐于尝试基于 AWS Inferentia 的 Inf1 实例。我们发现 Inf1 实例可以很容易地集成到我们的研发管道中。最重要的是,与基于 G4dn GPU 的实例相比,我们体验到了令人印象深刻的性能提升。在我们的第一个模型中,Inf1 实例的吞吐量提高了 45%,每次推理的成本降低了近 50%。我们打算与 AWS 团队密切合作,移植其他模型,并将大部分 ML 推理基础设施转移到 AWS Inferentia。”

Clarence Hu,Hotpot.ai 创始人

INGA
“INGA 的使命是创建基于人工智能和深度学习技术的高级文本汇总解决方案,这些解决方案可以轻松集成到当前的业务管道中。我们认为,文本汇总对于帮助企业从数据中获取有意义的见解至关重要。我们快速增加了基于 AWS Inferentia 的 Amazon EC2 Inf1 实例,并将其集成到我们的开发管道中。这一影响是直接且意义重大的。Inf1 实例提供了高性能,使我们能够提高推理模型管道的效率和有效性。开箱即用,与之前基于 GPU 的管道相比,我们的吞吐量提高了 4 倍,整体管道成本降低了 30%。”

Yaroslav Shakula,INGA Technologies 首席业务开发官

SkyWatch
“SkyWatch 每天处理从太空捕获的数千亿像素地球观测数据。采用基于 AWS Inferentia 的全新 Inf1 实例,使用 Amazon SageMaker 进行实时云检测和图像质量评分非常迅速且轻松。这一切的关键点在于在部署配置中切换实例类型。通过将实例类型转换为基于 Inferentia 的 Inf1,我们将性能提高了 40%,并将总成本降低了 23%。我们取得了巨大胜利。它使我们能够降低整体运营成本,同时继续以最低的工程开销向客户提供高质量的卫星影像。我们期待着将所有推理终端节点和批处理机器学习流程转移到使用 Inf1 实例,以进一步提高数据可靠性和客户体验。”

Adler Santos,SkyWatch 工程经理

Amazon 服务使用 Amazon EC2 Inf1 实例

Amazon Alexa

逾 1 亿台 Alexa 设备销往全球各地,客户还为 Amazon 上的 Echo 设备留下了超过 40 万条 5 星好评。Amazon Alexa 高级副总裁 Tom Taylor 表示:“Amazon Alexa 的 AI 和基于 ML 的智能技术由 Amazon Web Services 提供支持,目前已在 1 亿多台设备上提供。我们向客户承诺,Alexa 将始终致力于变得更智能、更对话化、更主动、更令人满意。实现这一承诺需要持续改进响应时间和机器学习基础设施成本,因此我们很高兴使用 Amazon EC2 Inf1 实例来降低 Alexa 文本到语音转换的推理延迟和每次推理成本。借助 Amazon EC2 Inf1 实例,我们将能够为每月使用 Alexa 的数千万客户提供更好的服务。”

Amazon Alexa
“Amazon Rekognition 是一种简单的图像和视频分析应用程序,可帮助客户识别物体、人、文本和活动。Amazon Rekognition 需要高性能的深度学习基础设施,以便可以每天为客户分析数十亿图像和视频。使用基于 AWS Inferentia 的 Inf1 实例运行对象分类之类的 Rekognition 模型,与在 GPU 上运行这些模型相比,可将延迟降低 8 倍,将吞吐量提高 2 倍。根据这些结果,我们将 Rekognition 移动到 Inf1,从而使我们的客户能够更快地获取准确结果。”
 
Rajneesh Singh,Rekognition and Video 的软件工程总监

定价

* 所示价格适用于美国东部(弗吉尼亚北部)AWS 区域。一年期和三年期预留实例的价格适用于“部分预付费用”付款方式或“无预付费用”(针对没有“部分预付费用”选项的实例)。

Amazon EC2 Inf1 以按需实例、预留实例或 Spot 实例的形式在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)AWS 区域推出。

开始使用

使用 Amazon SageMaker

Amazon SageMaker 使您能够轻松在生产环境中编译您训练好的机器学习模型并将其部署到 Amazon Inf1 实例上,以便开始以低延迟生成实时预测。AWS Neuron 是 AWS Inferentia 的编译器,它与 Amazon SageMaker Neo 集成,使您能够编译经过训练的机器学习模型,以便在 Inf1 实例上以最佳方式运行。借助 Amazon SageMaker,您可以轻松在跨多个可用区的 Inf1 实例的 auto-scaling 集群上运行您的模型,以交付高性能和高可用性实时推理。通过 Github 上的示例了解如何使用 Amazon SageMaker 部署到 Inf1。

使用 AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) 可以为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。AWS Neuron 开发工具包预安装在 AWS Deep Learning AMI 中,可在 Inf1 实例上以最佳方式编译和运行您的机器学习模型。为了帮助指导您完成入门流程,请访问 AMI 选择指南和更多深度学习资源。请参阅 AWS DLAMI 入门指南,了解如何将 DLAMI 与 Neuron 配合使用。

使用 Deep Learning Containers

现在,开发人员可以在 Amazon Elastic Kubernetes Service(EKS,完全托管的 Kubernetes 服务)以及 Amazon Elastic Container Service(ECS,Amazon 的完全托管容器编排服务)中部署 Inf1 实例。阅读本博客,详细了解如何在 Amazon EKS 上开始使用 Inf1。有关在 Inf1 实例上运行容器的更多详细信息,请参阅 Neuron 容器工具教程页面。即将推出 AWS DL 容器的 Inf1 支持。