什麼是 Amazon SageMaker 推論?
Amazon SageMaker AI 能以更輕鬆的方式部署 ML 模型 (包括基礎模型 (FM) 在內),針對任何使用案例以最優惠的價格效能比提出推論請求。從低延遲和高輸送量到長時間執行的推論,您可以使用 SageMaker AI 來滿足所有推論需求。SageMaker AI 是一項全受管服務,與 MLOps 工具整合,讓您可以擴展模型部署、降低推論成本、更有效地管理生產中的模型,並降低營運負擔。
SageMaker Inference 的優勢
多種推論選項
即時推論
無伺服器推論
非同步推論
批次轉換
支援大多數機器學習架構和模型伺服器
Amazon SageMaker 推論支援最常見的一些機器學習架構 (例如 TensorFlow、PyTorch、ONNX 和 XGBoost) 的內建演算法和預先建置 Docker 映像檔。如果任何預先建置的 Docker 映像檔都無法滿足您的需求,您可以建立自己的容器,用於以 CPU 為基礎的多模型端點。SageMaker 推論支援熱門的模型伺服器,例如 TensorFlow Serving、TorchServe、NVIDIA Triton、AWS 多模型伺服器。
Amazon SageMaker AI 提供專門的深度學習容器 (DLC)、程式庫以及用於模型平行性和大型模型推論 (LMI) 的工具,可協助您提高基礎模型的效能。藉助這些選項,您可以針對幾乎任何使用案例快速部署模型,包括基礎模型 (FM)。
![TensorFlow TensorFlow](https://d1.awsstatic.com/SageMaker/SageMaker%20reInvent%202020/tensorflow.2a4c127854707768399c2bc4dd08b46d29b0edb2.png)
![PyTorch PyTorch](https://d1.awsstatic.com/SageMaker/SageMaker%20reInvent%202020/pytorch.5c55ca6186ce68685f54ee592cccbacdf608a843.png)
![mxnet mxnet](https://d1.awsstatic.com/SageMaker/SageMaker%20reInvent%202020/mxnet.ab9bb7954d615227f2cee7d5b62e8bdd4676ea9a.png)
![Hugging Face Hugging Face 標誌](https://d1.awsstatic.com/huggingface-logo-gray250x150.b5d8926496302932b380440f85dc1639130a8c61.png)
![Scikit-learn TensorFlow](https://d1.awsstatic.com/SageMaker/SageMaker%20reInvent%202020/Scikitlearn_logo_white.13e2af4a22cc8fa9e9133554946e32ac79c3c7ae.png)
以低成本實現高推論效能
以低成本實現高推論效能
Amazon SageMaker AI 的全新推論最佳化工具組可提供高達約 2 倍的輸送量,同時為 Llama 3、Mistral 和 Mixtral 模型等生成式 AI 模型降低達約 50% 的成本。例如,使用 Llama 3-70B 模型,您可以在 ml.p5.48xlarge 執行個體上達到最多 ~2400 個字符/秒 (相較於之前的 ~1200 個字符/秒),無須進行任何最佳化。您可以選擇模型最佳化技術,例如推測解碼、量化和編譯,或結合多種技術,將它們套用到您的模型,執行基準以評估技術對輸出品質和推論性能的影響,只需按幾下即可部署模型。
![一目了然地展示評估指標的圖像](https://d1.awsstatic.com/products/sagemaker/model-deployment/sagemaker-studio-inference-experience-optimization-screencapture.eb8a47d581ad506a93acf95f2650500707b94cb8.png)
在最高效能的基礎設施上部署模型,或使用無伺服器
Amazon SageMaker AI 提供超過 70 種執行個體類型,具有不同等級的運算和記憶體,包括以 AWS Inferentia 為基礎的 Amazon EC2 Inf1 執行個體、AWS 設計和建置的高效能 ML 推論晶片,以及 Amazon EC2 G4dn 等 GPU 執行個體。或者,選擇 Amazon SageMaker 無伺服器推論,輕鬆擴展至每個端點數千個模型、每秒數百萬筆交易 (TPS) 輸送量,以及低於 10 毫秒負擔延遲。
![影像展示 ML 推論晶片的功能](https://d1.awsstatic.com/products/sagemaker/model-deployment/deploy-feature4-1200px-low_res-width-1200px.015340cc572ea2eb1c7ccb4056e35718bb93e318.png)
影子測試以驗證 ML 模型的效能
Amazon SageMaker AI 透過使用即時推論請求針對目前 SageMaker 部署的模型進行其效能的影子測試,協助您評估新模型。影子測試可以幫助您於影響最終使用者前,發現潛在的組態錯誤和效能問題。使用 SageMaker AI,您無需花費數週的時間建置自己的影子測試基礎設施。只需選取您要對其進行測試的生產模型,SageMaker AI 就會自動在影子模式下對新模型進行部署,並將生產模型收到的推論請求副本即時路由到新模型。
![影像描述影子測試程序](https://d1.awsstatic.com/products/sagemaker/model-deployment/deploy-feature5-1200px-low_res-width-1200px.e36d0a7a4fd2eaef9ff7b5c369cd46ae118d56fb.png)
![影像顯示自動擴展群組](https://d1.awsstatic.com/products/sagemaker/model-deployment/deploy-feature7-1200px-low_res-width-1200px.012feec3804a844551dcb49f80c456098b90c82d.png)
延遲改進和智慧型路由
您可以透過智慧型的方式路由將新的推論請求至可用的執行個體,而不是隨機路由到已經忙於處理推論請求的執行個體,從而減少 ML 模型的推論延遲,平均降低20%。
降低營運負擔,加速實現價值
完全受管模型託管和管理
做為一項全受管服務,Amazon SageMaker AI 負責設定和管理執行個體、軟體版本相容性和修補版本。它還會為您提供端點的內建指標和日誌,您可以用來監控和接收提醒。
![影像展示模型管理的流程](https://docs.aws.amazon.com/images/sagemaker/latest/dg/images/inference-workflow-flowchart.png)
與 MLOps 功能的內建整合
Amazon SageMaker AI 模型部署功能原生與 MLOps 功能整合,包括 SageMaker Pipelines (工作流程自動化和協同運作)、SageMaker 專案 (適用於 ML 的 CI/CD)、SageMaker 特徵存放區 (特徵管理)、SageMaker 模型註冊表 (用於追蹤歷程和支援自動化核准工作流程的模型和成品目錄)、SageMaker Clarify (偏差偵測) 和 SageMaker Model Monitor (模型和概念漂移偵測)。因此,無論您是部署一個模型還是數萬個模型,SageMaker AI 都可以協助減輕部署、擴展和管理 ML 模型的操作負擔,同時更快地讓它們進入生產。
![影像顯示火車模型流程圖](https://d1.awsstatic.com/reInvent/reinvent-2023/pdp/sagemaker/overview/SageMaker_PDP-Images_Deploy-2.d40fdc8c84761ee4221ff66fcebf8e18b19484a7.png)
適用於 SageMaker Inference 的資源
最新消息
Total results: 133
- 日期 (最新到最舊)
-
2025年1月30日
-
2024年12月11日
-
2024年12月6日
-
2024年12月6日
-
2024年12月4日