重要更新

感謝您對 Amazon Elastic Inference 感興趣。Amazon Elastic Inference 不再提供給新客戶使用。您可以使用 AWS Inferentia 等其他硬體加速選項，以較低成本獲得更好的機器學習推論工作負載效能。如果您目前正在使用 Amazon Elastic Inference，請考慮將工作負載遷移至這些替代方案。如需進一步了解，請瀏覽 AWS 機器學習基礎設施頁面。

Amazon Elastic Inference 可讓您將低成本的 GPU 支援加速功能附加到 Amazon EC2 和 SageMaker 執行個體或 Amazon ECS 任務，最多可節省 75% 執行深度學習推論的成本。Amazon Elastic Inference 支援使用 TensorFlow、Apache MXNet、PyTorch 和 ONNX 等模型。

推斷是使用經過訓練的模型進行預測的過程。在深度學習應用程式中，推斷佔總營運成本的 90%，有兩個原因。首先，獨立 GPU 執行個體專為模型培訓而設計，不適用於推斷。雖然培訓任務會平行批次處理數百個資料取樣，但推斷任務通常會即時處理單一輸入，因此會使用少量的 GPU 運算。這讓獨立 GPU 推斷經濟而高效。另一方面，獨立 CPU 執行個體並非專門用於矩陣運算，因此對於深度學習推斷而言通常太慢。其次，不同的型號具有不同的 CPU、GPU 和記憶體要求。對一種資源最佳化可能導致對其他資源的利用不足和更高的成本。

Amazon Elastic Inference 可讓您在任何 EC2 或 SageMaker 執行個體類型或 ECS 任務上附加適當的 GPU 支援推論加速數量，不需變更任何程式碼，就能解決上述問題。藉助 Amazon Elastic Inference，您可以在 AWS 選擇最適合應用程式整體運算和記憶體需求的任何 CPU 執行個體，然後單獨設定適當的 GPU 驅動的推論加速數量，讓您有效地利用資源並降低成本。

優勢

最多可節省 75% 的推論成本

Amazon Elastic Inference 可讓您選擇最適合應用程式整體運算和記憶體需求的執行個體類型。然後，您可以單獨設定所需的推論加速數量。您不必再為了推論而過度佈建 GPU 運算，因此最多可節省 75% 的推論成本。

獲得真正需要的資源

Amazon Elastic Inference 提供的推論加速可小至單精度 TFLOPS (每秒萬億次浮點操作)，也可提供多達 32 種混合精度 TFLOPS。相較於單獨 Amazon EC2 P3 執行個體提供的推論加速最高可達 1,000 TFLOPS，這樣的推論運算範圍更為恰當。舉例來說，簡單的語言處理模型可能只需要一個 TFLOPS 就能妥善執行推論，而精密的電腦視覺模型可能需要高達 32 個 TFLOPS。

視需求變化而調整

您可以使用 Amazon EC2 Auto Scaling 群組，視應用程式的需求輕鬆調整推論加速，避免過度佈建容量。EC2 Auto Scaling 為了滿足不斷增長的需求而增加 EC2 執行個體時，也會自動擴展每個執行個體附加的加速器。同樣地，因為需求下降而減少 EC2 執行個體時，也會自動縮減每個執行個體的附加加速器。因此，您只需支付所需的用量。

支援常見架構

Amazon Elastic Inference 支援 TensorFlow 和 Apache MXNet 模型，未來將會支援更多架構。

Amazon Elastic Inference

機器學習推理成本降低高達 75%

重要更新

優勢

最多可節省 75% 的推論成本

獲得真正需要的資源

視需求變化而調整

支援常見架構

相關內容

Amazon Elastic Inference

機器學習推理成本降低高達 75%

重要更新

優勢

最多可節省 75% 的推論成本

獲得真正需要的資源

視需求變化而調整

支援常見架構

相關內容

結束對 Internet Explorer 的支援