Amazon SageMaker 推論

輕鬆部署及管理用於推論的機器學習 (ML) 模型

什麼是 Amazon SageMaker 推論?

Amazon SageMaker AI 能以更輕鬆的方式部署 ML 模型 (包括基礎模型 (FM) 在內),針對任何使用案例以最優惠的價格效能比提出推論請求。從低延遲和高輸送量到長時間執行的推論,您可以使用 SageMaker AI 來滿足所有推論需求。SageMaker AI 是一項全受管服務,與 MLOps 工具整合,讓您可以擴展模型部署、降低推論成本、更有效地管理生產中的模型,並降低營運負擔。

SageMaker Inference 的優勢

多種推論選項

即時推論

針對具有穩定流量模式的使用案例進行即時、互動式和低延遲的預測。 您可以將模型部署到全受管且支援自動擴展的端點。

無伺服器推論

低延遲和高輸送量,適用於具有間歇性流量模式的使用案例。無伺服器端點會自動啟動運算資源,並根據流量進行資源縮減和擴展,從而無需選擇執行個體類型或管理擴展政策。

非同步推論

對於大型承諾 (最多 1 GB) 或長處理時間 (最多一小時) 的使用案例以及近乎即時的延遲要求,延遲較低。在沒有需要處理的請求時,非同步推論可以自動將執行個體計數調整為零,從而協助節省成本。

批次轉換

針對大型資料集使用案例的資料批次進行離線推論。藉助批次轉換,您可以預先處理資料集以移除雜訊或偏差,並將輸入記錄與推論關聯以協助解釋結果。

可擴展且經濟高效的推論選項

單一模型端點

在專用預留執行個體或無伺服器上託管之容器上的單一模型,可實現低延遲和高輸送量。

進一步了解

單一模型端點

在單一端點上的多個模型

在同一個執行個體中託管多個模型,以更有效利用基礎加速器,最多可將部署成本降低 50%。您可以分別控制每個 FM 的擴展策略,使其更容易地適應模型使用模式,同時最佳化基礎架構成本。

進一步了解

多模型端點

序列推論管道

多個容器共用專用預留執行個體並依序執行。您可以使用推論管道來結合預先處理、預測和後續處理資料科學任務。

進一步了解

序列推論管道

支援大多數機器學習架構和模型伺服器

Amazon SageMaker 推論支援最常見的一些機器學習架構 (例如 TensorFlow、PyTorch、ONNX 和 XGBoost) 的內建演算法和預先建置 Docker 映像檔。如果任何預先建置的 Docker 映像檔都無法滿足您的需求,您可以建立自己的容器,用於以 CPU 為基礎的多模型端點。SageMaker 推論支援熱門的模型伺服器,例如 TensorFlow Serving、TorchServe、NVIDIA Triton、AWS 多模型伺服器。

Amazon SageMaker AI 提供專門的深度學習容器 (DLC)、程式庫以及用於模型平行性和大型模型推論 (LMI) 的工具,可協助您提高基礎模型的效能。藉助這些選項,您可以針對幾乎任何使用案例快速部署模型,包括基礎模型 (FM)。


進一步了解
 

TensorFlow
PyTorch
mxnet
Hugging Face 標誌
TensorFlow

以低成本實現高推論效能

以低成本實現高推論效能

Amazon SageMaker AI 的全新推論最佳化工具組可提供高達約 2 倍的輸送量,同時為 Llama 3、Mistral 和 Mixtral 模型等生成式 AI 模型降低達約 50% 的成本。例如,使用 Llama 3-70B 模型,您可以在 ml.p5.48xlarge 執行個體上達到最多 ~2400 個字符/秒 (相較於之前的 ~1200 個字符/秒),無須進行任何最佳化。您可以選擇模型最佳化技術,例如推測解碼、量化和編譯,或結合多種技術,將它們套用到您的模型,執行基準以評估技術對輸出品質和推論性能的影響,只需按幾下即可部署模型。

一目了然地展示評估指標的圖像

在最高效能的基礎設施上部署模型,或使用無伺服器

Amazon SageMaker AI 提供超過 70 種執行個體類型,具有不同等級的運算和記憶體,包括以 AWS Inferentia 為基礎的 Amazon EC2 Inf1 執行個體、AWS 設計和建置的高效能 ML 推論晶片,以及 Amazon EC2 G4dn 等 GPU 執行個體。或者,選擇 Amazon SageMaker 無伺服器推論,輕鬆擴展至每個端點數千個模型、每秒數百萬筆交易 (TPS) 輸送量,以及低於 10 毫秒負擔延遲。

影像展示 ML 推論晶片的功能

影子測試以驗證 ML 模型的效能

Amazon SageMaker AI 透過使用即時推論請求針對目前 SageMaker 部署的模型進行其效能的影子測試,協助您評估新模型。影子測試可以幫助您於影響最終使用者前,發現潛在的組態錯誤和效能問題。使用 SageMaker AI,您無需花費數週的時間建置自己的影子測試基礎設施。只需選取您要對其進行測試的生產模型,SageMaker AI 就會自動在影子模式下對新模型進行部署,並將生產模型收到的推論請求副本即時路由到新模型。

影像描述影子測試程序

自動擴展以獲得彈性

您可以使用擴展政策來自動擴展基礎運算資源,以適應推論請求的波動。您可以分別控制每個 ML 模型的擴展政策,以輕鬆處理模型用量的變更,同時最佳化基礎設施成本。

影像顯示自動擴展群組

延遲改進和智慧型路由

您可以透過智慧型的方式路由將新的推論請求至可用的執行個體,而不是隨機路由到已經忙於處理推論請求的執行個體,從而減少 ML 模型的推論延遲,平均降低20%。

降低營運負擔,加速實現價值

完全受管模型託管和管理

做為一項全受管服務,Amazon SageMaker AI 負責設定和管理執行個體、軟體版本相容性和修補版本。它還會為您提供端點的內建指標和日誌,您可以用來監控和接收提醒。

影像展示模型管理的流程

與 MLOps 功能的內建整合

Amazon SageMaker AI 模型部署功能原生與 MLOps 功能整合,包括 SageMaker Pipelines (工作流程自動化和協同運作)、SageMaker 專案 (適用於 ML 的 CI/CD)、SageMaker 特徵存放區 (特徵管理)、SageMaker 模型註冊表 (用於追蹤歷程和支援自動化核准工作流程的模型和成品目錄)、SageMaker Clarify (偏差偵測) 和 SageMaker Model Monitor (模型和概念漂移偵測)。因此,無論您是部署一個模型還是數萬個模型,SageMaker AI 都可以協助減輕部署、擴展和管理 ML 模型的操作負擔,同時更快地讓它們進入生產。

影像顯示火車模型流程圖