Amazon Elastic Inference

將 GPU 加速新增到任何 Amazon EC2 執行個體,以相對低廉的成本獲得更快的推論速度 (最多可節省 75%)

Amazon Elastic Inference 可讓您將低成本的 GPU 支援加速功能附加到 Amazon EC2 和 Amazon SageMaker 執行個體,最多可節省 75% 執行深度學習推論的成本。 Amazon Elastic Inference 支援 TensorFlow、Apache MXNet 和 ONNX 模型,未來將會支援更多架構。

在大多數深度學習應用程式中,使用經過培訓的模型作預測的過程稱為推論,而且會因兩大因素而導致應用程式運算成本大增 90%。首先,獨立 GPU 執行個體專為模型培訓而設計,對推論來說通常過大。雖然培訓任務會平行批次處理數百個資料取樣,但大多數推論會即時在單一輸入上發生,因此只會使用到少量的 GPU 運算。即使在尖峰負載的情況下,也未必會完全使用 GPU 的運算容量,這樣不僅浪費資源,而且所費不貲。其次,不同的模型需要不同數量的 GPU、CPU 和記憶體資源。為了滿足少用資源所需的要求而選擇較大的 GPU 執行個體類型,最後往往會導致其他資源未獲得充分利用,成本因而大增。

Amazon Elastic Inference 可讓您在任何 EC2 或 SageMaker 執行個體類型上附加適當的 GPU 支援推論加速數量,不需變更任何程式碼,就能解決上述問題。您現在可以透過 Amazon Elastic Inference 選擇最適合應用程式整體 CPU 和記憶體需求的執行個體類型,然後單獨設定所需的推論加速數量,以便有效率地運用資源,進而降低執行推論的成本。

Amazon Elastic Inference 簡介

優勢

最多可節省 75% 的推論成本

Amazon Elastic Inference 可讓您選擇最適合應用程式整體運算和記憶體需求的執行個體類型。然後,您可以單獨設定所需的推論加速數量。您不必再為了推論而過度佈建 GPU 運算,因此最多可節省 75% 的推論成本。

獲得真正需要的資源

Amazon Elastic Inference 提供的推論加速可小至單精度 TFLOPS (每秒萬億次浮點操作),也可提供多達 32 種混合精度 TFLOPS。相較於單獨 Amazon EC2 P3 執行個體提供的推論加速最高可達 1,000 TFLOPS,這樣的推論運算範圍更為恰當。舉例來說,簡單的語言處理模型可能只需要一個 TFLOPS 就能妥善執行推論,而精密的電腦視覺模型可能需要高達 32 個 TFLOPS。

視需求變化而調整

您可以使用 Amazon EC2 Auto Scaling 群組,視應用程式的需求輕鬆調整推論加速,避免過度佈建容量。EC2 Auto Scaling 為了滿足不斷增長的需求而增加 EC2 執行個體時,也會自動擴展每個執行個體附加的加速器。同樣地,因為需求下降而減少 EC2 執行個體時,也會自動縮減每個執行個體的附加加速器。因此,您只需支付所需的用量。

支援常見架構

Amazon Elastic Inference 支援 TensorFlow 和 Apache MXNet 模型,未來將會支援更多架構。

tensorflow_logo_200px
mxnet_150x50
部落格:Amazon Elastic Inference – GPU-Powered Inference Acceleration
2018 年 11 月 28 日
 
Product-Page_Standard-Icons_01_Product-Features_SqInk
查閱產品功能

進一步了解 Amazon Elastic Inference 功能。

進一步了解 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
Product-Page_Standard-Icons_03_Start-Building_SqInk
開始在主控台進行建置

在 Amazon SageMaker 或 Amazon EC2 開始使用 Amazon Elastic Inference。

登入