Amazon Elastic Inference

将机器学习推理成本降低多达 75%

 重要更新

感谢您对 Amazon SageMaker Inference 的关注。Amazon SageMaker Inference 不再面向新客户提供。通过使用 AWS Inferentia 等其他硬件加速选项,您可以以更低的成本为机器学习推理工作负载提供更好的性能。如果您目前正在使用 Amazon Elastic Inference,不妨考虑将您的工作负载迁移到这些替代方案。要了解更多信息,请访问 AWS 机器学习基础设施页面。

借助 Amazon Elastic Inference,您可以将低成本 GPU 驱动的加速附加到 Amazon EC2 和 SageMaker 实例或 Amazon ECS 任务,以将运行深度学习推理的成本降低多达 75%。Amazon Elastic Inference 支持 TensorFlow、Apache MXNet、PyTorch 和 ONNX 模型。

推理是使用经过训练的模型做出预测的流程。在深度学习应用程序中,推理最高占总运营成本的 90%,其原因有二。首先,独立 GPU 实例通常专为模型培训而设计,而非用于推理。虽然训练作业可并行批量处理数百个数据样本,但推理作业往往会实时处理单个输入,因而仅占用少量 GPU 计算。这使得独立 GPU 推理成本高且效率低。另一方面,独立 CPU 实例不是专为矩阵操作提供的,因此对于深度学习推理来说过于缓慢。其次,不同模型对 CPU、GPU 和内存的要求也各不相同。针对某项资源进行优化可能导致其他资源利用率低下,成本增高。

Amazon Elastic Inference 可以解决这些问题,方法就是允许您将适当数量的 GPU 驱动的推理加速连接到任何 EC2 或 SageMaker 实例类型或 ECS 任务,而无需更改代码。借助 Amazon Elastic Inference,您可以针对您的应用程序的整体计算和内存需求在 AWS 中选择最适用的 CPU 实例,然后再分别配置所需量级的 GPU 驱动推理加速,从而有效利用资源,降低成本。

优势

将推理成本降低多达 75%

Amazon Elastic Inference 允许您选择最适合应用程序的总体计算和内存需求的实例类型。然后,您可以单独指定所需的推理加速量级。这样可以将推理成本降低多达 75%,因为您不再需要超额预置 GPU 计算以进行推理。

准确获取您所需的资源

Amazon Elastic Inference 可以提供低至单精度 TFLOPS(每秒万亿次浮点运算)的推理加速或多达 32 混合精度的 TFLOPS。与由独立的 Amazon EC2 P3 实例提供的高达 1000 TFLOPS 的范围相比,这是一个更合适的推理计算范围。例如,简单的语言处理模型可能只需要 1 TFLOPS 就可以很好地运行推理,而复杂的计算机视觉模型可能需要高达 32 TFLOPS。

响应需求的变化

您可以使用 Amazon EC2 Auto Scaling 组轻松扩展和缩减推理加速量级,以满足应用程序的需求,而不会过度预置容量。当 EC2 Auto Scaling 增加 EC2 实例以满足不断增长的需求时,它还会自动扩展每个实例连接的加速器。同样,当 Auto Scaling 由于需求降低而减少 EC2 实例时,也会自动缩减每个实例连接的加速器。这有助于您仅为所需资源付费。

支持热门框架

Amazon Elastic Inference 支持 TensorFlow 和 Apache MXNet 模型,即将推出更多框架。

博客:Amazon Elastic Inference – GPU 驱动的推理加速
2018 年 11 月 28 日