Amazon Elastic Inference

機器學習推理成本降低高達 75%

 重要更新

感謝您對 Amazon Elastic Inference 感興趣。Amazon Elastic Inference 不再提供給新客戶使用。您可以使用 AWS Inferentia 等其他硬體加速選項,以較低成本獲得更好的機器學習推論工作負載效能。如果您目前正在使用 Amazon Elastic Inference,請考慮將工作負載遷移至這些替代方案。如需進一步了解,請瀏覽 AWS 機器學習基礎設施頁面。

Amazon Elastic Inference 可讓您將低成本的 GPU 支援加速功能附加到 Amazon EC2 和 SageMaker 執行個體或 Amazon ECS 任務,最多可節省 75% 執行深度學習推論的成本。Amazon Elastic Inference 支援使用 TensorFlow、Apache MXNet、PyTorch 和 ONNX 等模型。

推斷是使用經過訓練的模型進行預測的過程。在深度學習應用程式中,推斷佔總營運成本的 90%,有兩個原因。首先,獨立 GPU 執行個體專為模型培訓而設計,不適用於推斷。雖然培訓任務會平行批次處理數百個資料取樣,但推斷任務通常會即時處理單一輸入,因此會使用少量的 GPU 運算。這讓獨立 GPU 推斷經濟而高效。另一方面,獨立 CPU 執行個體並非專門用於矩陣運算,因此對於深度學習推斷而言通常太慢。其次,不同的型號具有不同的 CPU、GPU 和記憶體要求。對一種資源最佳化可能導致對其他資源的利用不足和更高的成本。

Amazon Elastic Inference 可讓您在任何 EC2 或 SageMaker 執行個體類型或 ECS 任務上附加適當的 GPU 支援推論加速數量,不需變更任何程式碼,就能解決上述問題。藉助 Amazon Elastic Inference,您可以在 AWS 選擇最適合應用程式整體運算和記憶體需求的任何 CPU 執行個體,然後單獨設定適當的 GPU 驅動的推論加速數量,讓您有效地利用資源並降低成本。

優勢

最多可節省 75% 的推論成本

Amazon Elastic Inference 可讓您選擇最適合應用程式整體運算和記憶體需求的執行個體類型。然後,您可以單獨設定所需的推論加速數量。您不必再為了推論而過度佈建 GPU 運算,因此最多可節省 75% 的推論成本。

獲得真正需要的資源

Amazon Elastic Inference 提供的推論加速可小至單精度 TFLOPS (每秒萬億次浮點操作),也可提供多達 32 種混合精度 TFLOPS。相較於單獨 Amazon EC2 P3 執行個體提供的推論加速最高可達 1,000 TFLOPS,這樣的推論運算範圍更為恰當。舉例來說,簡單的語言處理模型可能只需要一個 TFLOPS 就能妥善執行推論,而精密的電腦視覺模型可能需要高達 32 個 TFLOPS。

視需求變化而調整

您可以使用 Amazon EC2 Auto Scaling 群組,視應用程式的需求輕鬆調整推論加速,避免過度佈建容量。EC2 Auto Scaling 為了滿足不斷增長的需求而增加 EC2 執行個體時,也會自動擴展每個執行個體附加的加速器。同樣地,因為需求下降而減少 EC2 執行個體時,也會自動縮減每個執行個體的附加加速器。因此,您只需支付所需的用量。

支援常見架構

Amazon Elastic Inference 支援 TensorFlow 和 Apache MXNet 模型,未來將會支援更多架構。

部落格:Amazon Elastic Inference – GPU-Powered Inference Acceleration
2018 年 11 月 28 日