借助 Amazon Elastic Inference,您可向任何 Amazon EC2 或 Amazon SageMaker 实例类型连接适当量级的 GPU 推理加速。也就是说,您现在可以选择最适合应用整体计算、内存和存储需求的实例类型,然后单独配置所需量级的推理加速。 

集成 Amazon SageMaker 和 Amazon EC2

可通过两种方式在 AWS 中运行推理工作负载:将您的模型部署在 Amazon SageMaker 中以获得完全托管体验,或者在 Amazon EC2 实例中运行并自行管理。Amazon Elastic Inference 可与 Amazon SageMaker 和 Amazon EC2 集成并无缝协作,您可在这两种场景下增加推理加速功能。借助 Amazon SageMaker,您可以在创建模型的 HTTPS 终端节点时指定所需量级的推理加速,而借助 Amazon EC2,您可以在发布实例时同样实现这一点。

TensorFlow 和 Apache MXNet 支持

Amazon Elastic Inference 可与 AWS 的增强版本 TensorFlow Serving 和 Apache MXNet 配合使用。这些增强功能使框架能够自动检测推理加速器的状态,在加速器 GPU 与实例 CPU 之间优化分布模型运算,并使用 AWS Identity and Access Management (IAM) 策略安全控制对加速器的访问。增强 TensorFlow Serving 和 MXNet 库在 Amazon SageMaker 和 AWS Deep Learning AMI 中自动提供,您无需进行任何代码即可在生产中部署模型。您还可以按照此处的说明单独下载这些库。

开放神经网络交换 (ONNX) 格式支持

ONNX 是一种开放格式,可在深度学习框架中训练模型,然后将其传输到另一个框架进行推理。这样您便可以充分利用不同框架的相对优势。例如,借助 ONNX,您可以利用 PyTorch 的灵活性来构建和训练模型,然后将其传输到 Apache MXNet,这样便可有效地运行大规模推理工作。ONNX 集成于 PyTorch、MXNet、Chainer、Caffe2 和 Microsoft Cognitive Toolkit,还有适用于 TensorFlow 等许多其他框架的连接器。要配合使用 ONNX 模型和 Amazon Elastic Inference,您的训练模型需要传输到 AWS 优化版本的 Apache MXNet 以进行生产部署。

单一或混合精度运算选择

Amazon Elastic Inference 加速器同时支持单精度(32 位浮点)运算和混合精度(16 位浮点)运算。单精度可提供极大的数值范围来表示您的模型所使用的参数。但是,大多数模型实际上并不需要这么高的精度,计算数值时经常会造成不必要的性能损失。为避免这个问题,混合精度运算可将数值范围减少一半,并获得 8 倍的推理性能。

提供多种加速量级

Amazon Elastic Inference 提供多种吞吐量级别,每个加速器每秒浮点运算次数 (TFLOPS) 在 1 到 32 万亿之间,从而可以有效地加速广泛的推理模型,包括计算机视觉、自然语言处理和语音识别。与最低速度为 125 TFLOPS 的独立 Amazon EC2 P3 实例(目前最小的 P3 实例)相比,Amazon Elastic Inference 每个加速器的最低速度为 1 TFLOPS。因此您能够以适当的比例扩展推理加速。您还可以为复杂模型选择更大型的加速器,每个加速器的最大速度可达 32 TFLOPS。

Auto-Scaling

Amazon Elastic Inference 可以成为用于扩展 Amazon EC2 和 Amazon SageMaker 实例的 Amazon EC2 Auto Scaling 组的一部分。当 EC2 Auto Scaling 添加更多 EC2 实例来满足您的应用需求时,也会扩展每个实例所连接的加速器。同样,当 Auto Scaling 由于需求降低而减少 EC2 实例时,也会降级每个实例所连接的加速器。这就使您可以同时扩展推理加速和应用计算容量,从而满足应用需求。

Product-Page_Standard-Icons_01_Product-Features_SqInk
详细了解产品定价信息

查看 Amazon Elastic Inference 定价。

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

在 Amazon SageMaker 或 Amazon EC2 中开始使用 Amazon Elastic Inference。

登录