Amazon Elastic Inference

機器學習推理成本降低高達 75%

Amazon Elastic Inference 可讓您將低成本的 GPU 支援加速功能附加到 Amazon EC2 和 Sagemaker 執行個體或 Amazon ECS 任務,最多可節省 75% 執行深度學習推論的成本。Amazon Elastic Inference 支援使用 TensorFlow、Apache MXNet、PyTorch 和 ONNX 等模型。

推斷是使用經過訓練的模型進行預測的過程。在深度學習應用程式中,推斷佔總營運成本的 90%,有兩個原因。首先,獨立 GPU 執行個體專為模型培訓而設計,不適用於推斷。雖然培訓任務會平行批次處理數百個資料取樣,但推斷任務通常會即時處理單一輸入,因此會使用少量的 GPU 運算。這讓獨立 GPU 推斷經濟而高效。另一方面,獨立 CPU 執行個體並非專門用於矩陣運算,因此對於深度學習推斷而言通常太慢。其次,不同的型號具有不同的 CPU、GPU 和記憶體要求。對一種資源最佳化可能導致對其他資源的利用不足和更高的成本。

Amazon Elastic Inference 可讓您在任何 EC2 或 SageMaker 執行個體類型或 ECS 任務上附加適當的 GPU 支援推論加速數量,不需變更任何程式碼,就能解決上述問題。藉助 Amazon Elastic Inference,您可以在 AWS 選擇最適合應用程式整體運算和記憶體需求的任何 CPU 執行個體,然後單獨設定適當的 GPU 驅動的推論加速數量,讓您有效地利用資源並降低成本。

Amazon Elastic Inference 簡介

優勢

最多可節省 75% 的推論成本

Amazon Elastic Inference 可讓您選擇最適合應用程式整體運算和記憶體需求的執行個體類型。然後,您可以單獨設定所需的推論加速數量。您不必再為了推論而過度佈建 GPU 運算,因此最多可節省 75% 的推論成本。

獲得真正需要的資源

Amazon Elastic Inference 提供的推論加速可小至單精度 TFLOPS (每秒萬億次浮點操作),也可提供多達 32 種混合精度 TFLOPS。相較於單獨 Amazon EC2 P3 執行個體提供的推論加速最高可達 1,000 TFLOPS,這樣的推論運算範圍更為恰當。舉例來說,簡單的語言處理模型可能只需要一個 TFLOPS 就能妥善執行推論,而精密的電腦視覺模型可能需要高達 32 個 TFLOPS。

視需求變化而調整

您可以使用 Amazon EC2 Auto Scaling 群組,視應用程式的需求輕鬆調整推論加速,避免過度佈建容量。EC2 Auto Scaling 為了滿足不斷增長的需求而增加 EC2 執行個體時,也會自動擴展每個執行個體附加的加速器。同樣地,因為需求下降而減少 EC2 執行個體時,也會自動縮減每個執行個體的附加加速器。因此,您只需支付所需的用量。

支援常見架構

Amazon Elastic Inference 支援 TensorFlow 和 Apache MXNet 模型,未來將會支援更多架構。

tensorflow_logo_200px
mxnet_150x50
logo-pytorch
部落格:Amazon Elastic Inference – GPU-Powered Inference Acceleration
2018 年 11 月 28 日
 
Standard Product Icons (Features) Squid Ink
查看產品功能

進一步了解 Amazon Elastic Inference 功能。

進一步了解 
Sign up for a free account
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
Standard Product Icons (Start Building) Squid Ink
開始在主控台進行建置

在 Amazon SageMaker 或 Amazon EC2 上開始使用 Amazon Elastic Inference。

登入