发布于: Dec 12, 2019
现在,您可以将多个 Amazon Elastic Inference 加速器附加到单个 Amazon EC2 实例。借助此功能,当您为多个模型运行推理时,可以在 auto-scaling 组中使用单个 EC2 实例。通过将多个加速器附加到单个实例,可以避免为推理而部署多个 CPU 或 GPU 实例的 auto-scaling 组,并降低运营成本。
借助 Amazon Elastic Inference,您可以将适量 GPU 驱动的加速功能附加到任何 Amazon EC2 实例,从而最多将运行深度学习推理的成本降低 75%。由于您的模型可能需要不同数量的 GPU 内存和计算容量,因此您可以选择不同的 Elastic Inference 加速器大小来附加到您的 CPU 实例。为了缩短响应时间,您可以一次将多个模型加载到一个加速器,然后继续进行推理调用而无需卸载模型。
在 Amazon Elastic Inference 可用的所有区域中,都已支持向一个 EC2 实例添加多个加速器。有关将多个加速器附加到单个实例的更多信息,请参阅将 TensorFlow 模型与 Elastic Inference 配合使用和将 MXNet 模型与 Elastic Inference 配合使用。