Amazon Elastic Inference

将 GPU 加速添加到任何 Amazon EC2 实例,以更低的成本实现更快的推理(节省高达 75% 的成本)

借助 Amazon Elastic Inference,您可以将低成本 GPU 驱动的加速附加到 Amazon EC2 和 Amazon SageMaker 实例,以将运行深度学习推理的成本降低多达 75%。 Amazon Elastic Inference 支持 TensorFlow、Apache MXNet 和 ONNX 模型,即将推出更多框架。

在大多数深度学习应用程序中,使用经过训练的模型进行预测(称为“推理”的过程)可能会因两个因素而导致应用程序的计算成本高达 90%。首先,独立 GPU 实例专为模型训练而设计,对于推理通常规模过大。虽然训练作业可并行批量处理数百个数据样本,但大多数推理在仅占用少量 GPU 计算的单个输入中实时发生。即使在峰值负载下,GPU 的计算容量也可能无法充分利用,这样做是浪费资源且成本高昂。其次,不同的模型需要不同数量的 GPU、CPU 和内存资源。选择足够大的 GPU 实例类型以满足最少使用资源的要求,这样通常会导致其他资源利用不足、成本较高。

Amazon Elastic Inference 可以解决这些问题,方法就是允许您将适当数量的 GPU 驱动的推理加速连接到任何 EC2 或 SageMaker 实例类型,而无需更改代码。借助 Amazon Elastic Inference,您现在可以选择最适合应用程序的总体 CPU 和内存需求的实例类型,然后单独配置有效使用资源和降低推理运行成本所需的推理加速量级。

Amazon Elastic Inference 简介

优势

将推理成本降低多达 75%

Amazon Elastic Inference 允许您选择最适合应用程序的总体计算和内存需求的实例类型。然后,您可以单独指定所需的推理加速量级。这样可以将推理成本降低多达 75%,因为您不再需要超额预置 GPU 计算以进行推理。

准确获取您所需的资源

Amazon Elastic Inference 可以提供低至单精度 TFLOPS(每秒万亿次浮点运算)的推理加速或多达 32 混合精度的 TFLOPS。与由独立的 Amazon EC2 P3 实例提供的高达 1000 TFLOPS 的范围相比,这是一个更合适的推理计算范围。例如,简单的语言处理模型可能只需要 1 TFLOPS 就可以很好地运行推理,而复杂的计算机视觉模型可能需要高达 32 TFLOPS。

响应需求的变化

您可以使用 Amazon EC2 Auto Scaling 组轻松扩展和缩减推理加速量级,以满足应用程序的需求,而不会过度预置容量。当 EC2 Auto Scaling 增加 EC2 实例以满足不断增长的需求时,它还会自动扩展每个实例连接的加速器。同样,当 Auto Scaling 由于需求降低而减少 EC2 实例时,也会自动缩减每个实例连接的加速器。这有助于您仅为所需资源付费。

支持常用框架

Amazon Elastic Inference 支持 TensorFlow 和 Apache MXNet 模型,即将推出更多框架。

tensorflow_logo_200px
mxnet_150x50
博客:Amazon Elastic Inference – GPU 驱动的推理加速
2018 年 11 月 28 日
 
Product-Page_Standard-Icons_01_Product-Features_SqInk
查看产品功能

了解有关 Amazon Elastic Inference 功能的更多信息。

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

在 Amazon SageMaker 或 Amazon EC2 中开始使用 Amazon Elastic Inference。

登录