什麼是 Amazon SageMaker 推論?
Amazon SageMaker AI 能以更輕鬆的方式部署 ML 模型 (包括基礎模型 (FM) 在內),針對任何使用案例以最優惠的價格效能比提出推論請求。從低延遲和高輸送量到長時間執行的推論,您可以使用 SageMaker AI 來滿足所有推論需求。SageMaker AI 是一項全受管服務,與 MLOps 工具整合,讓您可以擴展模型部署、降低推論成本、更有效地管理生產中的模型,並降低營運負擔。
SageMaker Inference 的優勢
多種推論選項
即時推論
無伺服器推論
非同步推論
批次轉換
支援大多數機器學習架構和模型伺服器
Amazon SageMaker 推論支援最常見的一些機器學習架構 (例如 TensorFlow、PyTorch、ONNX 和 XGBoost) 的內建演算法和預先建置 Docker 映像檔。如果任何預先建置的 Docker 映像檔都無法滿足您的需求,您可以建立自己的容器,用於以 CPU 為基礎的多模型端點。SageMaker 推論支援熱門的模型伺服器,例如 TensorFlow Serving、TorchServe、NVIDIA Triton、AWS 多模型伺服器。
Amazon SageMaker AI 提供專門的深度學習容器 (DLC)、程式庫以及用於模型平行性和大型模型推論 (LMI) 的工具,可協助您提高基礎模型的效能。藉助這些選項,您可以針對幾乎任何使用案例快速部署模型,包括基礎模型 (FM)。





以低成本實現高推論效能
以低成本實現高推論效能
Amazon SageMaker AI 的全新推論最佳化工具組可提供高達約 2 倍的輸送量,同時為 Llama 3、Mistral 和 Mixtral 模型等生成式 AI 模型降低達約 50% 的成本。例如,使用 Llama 3-70B 模型,您可以在 ml.p5.48xlarge 執行個體上達到最多 ~2400 個字符/秒 (相較於之前的 ~1200 個字符/秒),無須進行任何最佳化。您可以選擇模型最佳化技術,例如推測解碼、量化和編譯,或結合多種技術,將它們套用到您的模型,執行基準以評估技術對輸出品質和推論性能的影響,只需按幾下即可部署模型。

在最高效能的基礎設施上部署模型,或使用無伺服器
Amazon SageMaker AI 提供超過 70 種執行個體類型,具有不同等級的運算和記憶體,包括以 AWS Inferentia 為基礎的 Amazon EC2 Inf1 執行個體、AWS 設計和建置的高效能 ML 推論晶片,以及 Amazon EC2 G4dn 等 GPU 執行個體。或者,選擇 Amazon SageMaker 無伺服器推論,輕鬆擴展至每個端點數千個模型、每秒數百萬筆交易 (TPS) 輸送量,以及低於 10 毫秒負擔延遲。

影子測試以驗證 ML 模型的效能
Amazon SageMaker AI 透過使用即時推論請求針對目前 SageMaker 部署的模型進行其效能的影子測試,協助您評估新模型。影子測試可以幫助您於影響最終使用者前,發現潛在的組態錯誤和效能問題。使用 SageMaker AI,您無需花費數週的時間建置自己的影子測試基礎設施。只需選取您要對其進行測試的生產模型,SageMaker AI 就會自動在影子模式下對新模型進行部署,並將生產模型收到的推論請求副本即時路由到新模型。


延遲改進和智慧型路由
您可以透過智慧型的方式路由將新的推論請求至可用的執行個體,而不是隨機路由到已經忙於處理推論請求的執行個體,從而減少 ML 模型的推論延遲,平均降低20%。
降低營運負擔,加速實現價值
完全受管模型託管和管理
做為一項全受管服務,Amazon SageMaker AI 負責設定和管理執行個體、軟體版本相容性和修補版本。它還會為您提供端點的內建指標和日誌,您可以用來監控和接收提醒。

與 MLOps 功能的內建整合
Amazon SageMaker AI 模型部署功能原生與 MLOps 功能整合,包括 SageMaker Pipelines (工作流程自動化和協同運作)、SageMaker 專案 (適用於 ML 的 CI/CD)、SageMaker 特徵存放區 (特徵管理)、SageMaker 模型註冊表 (用於追蹤歷程和支援自動化核准工作流程的模型和成品目錄)、SageMaker Clarify (偏差偵測) 和 SageMaker Model Monitor (模型和概念漂移偵測)。因此,無論您是部署一個模型還是數萬個模型,SageMaker AI 都可以協助減輕部署、擴展和管理 ML 模型的操作負擔,同時更快地讓它們進入生產。

適用於 SageMaker Inference 的資源
最新消息
Total results: 133
- 日期 (最新到最舊)
-
2025年1月30日
-
2024年12月11日
-
2024年12月6日
-
2024年12月6日
-
2024年12月4日