重要更新

感谢您对 Amazon SageMaker Inference 的关注。Amazon SageMaker Inference 不再面向新客户提供。通过使用 AWS Inferentia 等其他硬件加速选项，您可以以更低的成本为机器学习推理工作负载提供更好的性能。如果您目前正在使用 Amazon Elastic Inference，不妨考虑将您的工作负载迁移到这些替代方案。要了解更多信息，请访问 AWS 机器学习基础设施页面。

借助 Amazon Elastic Inference，您可以将低成本 GPU 驱动的加速附加到 Amazon EC2 和 SageMaker 实例或 Amazon ECS 任务，以将运行深度学习推理的成本降低多达 75%。Amazon Elastic Inference 支持 TensorFlow、Apache MXNet、PyTorch 和 ONNX 模型。

推理是使用经过训练的模型做出预测的流程。在深度学习应用程序中，推理最高占总运营成本的 90%，其原因有二。首先，独立 GPU 实例通常专为模型培训而设计，而非用于推理。虽然训练作业可并行批量处理数百个数据样本，但推理作业往往会实时处理单个输入，因而仅占用少量 GPU 计算。这使得独立 GPU 推理成本高且效率低。另一方面，独立 CPU 实例不是专为矩阵操作提供的，因此对于深度学习推理来说过于缓慢。其次，不同模型对 CPU、GPU 和内存的要求也各不相同。针对某项资源进行优化可能导致其他资源利用率低下，成本增高。

Amazon Elastic Inference 可以解决这些问题，方法就是允许您将适当数量的 GPU 驱动的推理加速连接到任何 EC2 或 SageMaker 实例类型或 ECS 任务，而无需更改代码。借助 Amazon Elastic Inference，您可以针对您的应用程序的整体计算和内存需求在 AWS 中选择最适用的 CPU 实例，然后再分别配置所需量级的 GPU 驱动推理加速，从而有效利用资源，降低成本。

优势

将推理成本降低多达 75%

Amazon Elastic Inference 允许您选择最适合应用程序的总体计算和内存需求的实例类型。然后，您可以单独指定所需的推理加速量级。这样可以将推理成本降低多达 75%，因为您不再需要超额预置 GPU 计算以进行推理。

准确获取您所需的资源

Amazon Elastic Inference 可以提供低至单精度 TFLOPS（每秒万亿次浮点运算）的推理加速或多达 32 混合精度的 TFLOPS。与由独立的 Amazon EC2 P3 实例提供的高达 1000 TFLOPS 的范围相比，这是一个更合适的推理计算范围。例如，简单的语言处理模型可能只需要 1 TFLOPS 就可以很好地运行推理，而复杂的计算机视觉模型可能需要高达 32 TFLOPS。

响应需求的变化

您可以使用 Amazon EC2 Auto Scaling 组轻松扩展和缩减推理加速量级，以满足应用程序的需求，而不会过度预置容量。当 EC2 Auto Scaling 增加 EC2 实例以满足不断增长的需求时，它还会自动扩展每个实例连接的加速器。同样，当 Auto Scaling 由于需求降低而减少 EC2 实例时，也会自动缩减每个实例连接的加速器。这有助于您仅为所需资源付费。

支持热门框架

Amazon Elastic Inference 支持 TensorFlow 和 Apache MXNet 模型，即将推出更多框架。

Amazon Elastic Inference

将机器学习推理成本降低多达 75%

重要更新

优势

将推理成本降低多达 75%

准确获取您所需的资源

响应需求的变化

支持热门框架

相关内容

Amazon Elastic Inference

将机器学习推理成本降低多达 75%

重要更新

优势

将推理成本降低多达 75%

准确获取您所需的资源

响应需求的变化

支持热门框架

相关内容

终止对 Internet Explorer 的支持