「Amazon Elastic Inference 功能」

重要更新

感謝您對 Amazon Elastic Inference 感興趣。Amazon Elastic Inference 不再提供給新客戶使用。您可以使用 AWS Inferentia 等其他硬體加速選項，以較低成本獲得更好的機器學習推論工作負載效能。如果您目前正在使用 Amazon Elastic Inference，請考慮將工作負載遷移至這些替代方案。如需進一步了解，請瀏覽 AWS 機器學習基礎設施頁面。

Amazon Elastic Inference 可讓您將適當數量且使用 GPU 支援的推論加速連接到任何 Amazon EC2 執行個體、Amazon SageMaker 執行個體或 ECS 任務。這表示您現在可以選擇最符合應用程式整體運算、記憶體和儲存需求的 CPU 執行個體，然後分別設定所需的 GPU 支援的推論加速數量。

與 Amazon SageMaker、Amazon EC2 及 Amazon ECS

在 AWS 上執行推論工作負載的方式有多種：將您的模型部署於 Amazon SageMaker 以獲得全受管體驗，或者在 Amazon EC2 執行個體或 Amazon ECS 任務上執行模型並自行管理。Amazon Elastic Inference 已經過整合可順暢搭配 Amazon SageMaker、Amazon EC2 和 Amazon ECS 運作，讓您在所有使用情境中都能新增推論加速。您可在 Amazon SageMaker 中建立模型的 HTTPS 端點時指定所需的推論加速數量，也可在啟動 Amazon EC2 執行個體和定義 Amazon ECS 任務時進行此操作。

TensorFlow、Apache MXNet 和 PyTorch 支援

Amazon Elastic Inference 是專為搭配 AWS 的增強版 TensorFlow Serving、Apache MXNet 和 PyTorch 使用所設計。這些增強功能可讓架構自動偵測推論加速器，以最佳方式散佈加速器 GPU 與執行個體 CPU 之間的模型運作，以及使用 AWS Identity and Access Management (IAM) 政策以安全地控制加速器存取。Amazon SageMaker、AWS Deep Learning AMI 和 AWS Deep Learning Containers 會自動提供增強 TensorFlow Serving、MXNet 和 PyTorch 程式庫，因此您無需進行任何程式碼變更即可在生產環境中部署模型。您也可以遵循這裡的指示分別下載。

Open Neural Network Exchange (ONNX) 格式支援

ONNX 為開放格式，可在一個深度學習架構中訓練模型，接著將其移轉至至另一個架構來進行推論。這能讓您善用不同架構的相對優勢。ONNX 已整合至 PyTorch、MXNet、Chainer、Caffe2 和 Microsoft Cognitive Toolkit，並針對包括 TensorFlow 在內的許多其他架構提供連接器。若要搭配 Amazon Elastic Inference 使用 ONNX 模型，經過訓練的模型必須轉移至經過 AWS 最佳化的 Apache MXNet 版本進行生產部署。

單精度或混合精度作業的選擇

Amazon Elastic Inference 加速器支援單精度 (32 位元浮點) 作業以及混合精度 (16 位元浮點) 作業。單精度可提供極大數字範圍來呈現您的模型所用的參數。不過，大多數模型實際上並不需要這麼高的精度，而計算這麼龐大的數字會導致不必要的效能損失。為避免發生此問題，混合精度操作可讓您將數字範圍縮減一半，從而提升高達 8 倍的推論效能。

多種加速均可使用

Amazon Elastic Inference 在許多輸送量規模中均可使用，範圍涵蓋每個加速器每秒 1 到 32 兆的浮點作業 (TFLOPS)，因此使其得以有效率地加速多種推論模型，包括電腦視覺、自然語言處理和語音辨識。相較於獨立 Amazon EC2 P3 執行個體從 125 TFLOPS (目前可用的最小 P3 執行個體) 開始，Amazon Elastic Inference 則從每個加速器單一 TFLOPS 開始。這可讓您以更適合的遞增幅度來調升推論加速的規模。您也可以針對更為複雜的模型，從更大的加速器規模中挑選，最多可達每個加速器 32 TFLOPS。

自動調整規模

Amazon Elastic Inference 可隸屬於您用來調整 Amazon SageMaker、Amazon EC2 和 Amazon ECS 執行個體規模的相同 Amazon EC2 Auto Scaling 群組。當 EC2 Auto Scaling 新增更多 EC2 執行個體以滿足應用程式需求時，它也會調升每個執行個體附加的加速器規模。同樣地，因為需求下降而減少 EC2 執行個體時，Auto Scaling 也會自動減少每個執行個體的附加加速器規模。如此您便能按照應用程式的運算處理能力輕鬆調整推論加速規模，從而滿足應用程式需求。