Amazon SageMaker 推論

輕鬆部署及管理用於推論的機器學習 (ML) 模型

開始使用 SageMaker Inference

登入 SageMaker 主控台

概觀

優勢

功能

客戶

資源

什麼是 Amazon SageMaker 推論？

Amazon SageMaker AI 能以更輕鬆的方式部署 ML 模型 (包括基礎模型 (FM) 在內)，針對任何使用案例以最優惠的價格效能比提出推論請求。從低延遲和高輸送量到長時間執行的推論，您可以使用 SageMaker AI 來滿足所有推論需求。SageMaker AI 是一項全受管服務，與 MLOps 工具整合，讓您可以擴展模型部署、降低推論成本、更有效地管理生產中的模型，並降低營運負擔。

SageMaker Inference 的優勢

在生產環境中部署模型，以供任何使用案例進行推論

從低延遲 (幾毫秒) 和高輸送量 (每秒數百萬筆事務) 案例，到多語言文字處理、文字影像處理、多模式理解、自然語言處理，以及電腦視覺等使用案例的長時間執行推論，SageMaker AI 可滿足廣泛的推論要求。SageMaker AI 針對您的所有推論需求，提供強大且可擴展的解決方案。

實現最佳推論效能和成本

Amazon SageMaker AI 提供超過 100 種執行個體類型，具有各種等級的運算和記憶體，以滿足不同的效能需求。若要更好地利用基礎加速器並降低部署成本，您可以將多個模型部署至相同的執行個體。若要進一步最佳化成本，您可以使用自動擴展功能，這可根據流量自動調整執行個體數目。若沒有用量，則會關閉執行個體，從而降低推論成本。

使用 SageMaker MLOps 功能降低營運負擔

做為一項全受管服務，Amazon SageMaker AI 負責設定和管理執行個體、軟體版本相容性和修補版本。透過與 MLOps 功能的內建整合，此服務有助於減輕部署、擴展和管理 ML 模型的營運開銷，同時使其更快進入生產階段。

多種推論選項

即時推論

針對具有穩定流量模式的使用案例進行即時、互動式和低延遲的預測。您可以將模型部署到全受管且支援自動擴展的端點。

進一步了解

無伺服器推論

低延遲和高輸送量，適用於具有間歇性流量模式的使用案例。無伺服器端點會自動啟動運算資源，並根據流量進行資源縮減和擴展，從而無需選擇執行個體類型或管理擴展政策。

進一步了解

非同步推論

對於大型承諾 (最多 1 GB) 或長處理時間 (最多一小時) 的使用案例以及近乎即時的延遲要求，延遲較低。在沒有需要處理的請求時，非同步推論可以自動將執行個體計數調整為零，從而協助節省成本。

進一步了解

批次轉換

針對大型資料集使用案例的資料批次進行離線推論。藉助批次轉換，您可以預先處理資料集以移除雜訊或偏差，並將輸入記錄與推論關聯以協助解釋結果。

進一步了解

可擴展且經濟高效的推論選項

單一模型端點

在專用預留執行個體或無伺服器上託管之容器上的單一模型，可實現低延遲和高輸送量。

進一步了解

在單一端點上的多個模型

在同一個執行個體中託管多個模型，以更有效利用基礎加速器，最多可將部署成本降低 50%。您可以分別控制每個 FM 的擴展策略，使其更容易地適應模型使用模式，同時最佳化基礎架構成本。

進一步了解

序列推論管道

多個容器共用專用預留執行個體並依序執行。您可以使用推論管道來結合預先處理、預測和後續處理資料科學任務。

進一步了解

支援大多數機器學習架構和模型伺服器

Amazon SageMaker 推論支援最常見的一些機器學習架構 (例如 TensorFlow、PyTorch、ONNX 和 XGBoost) 的內建演算法和預先建置 Docker 映像檔。如果任何預先建置的 Docker 映像檔都無法滿足您的需求，您可以建立自己的容器，用於以 CPU 為基礎的多模型端點。SageMaker 推論支援熱門的模型伺服器，例如 TensorFlow Serving、TorchServe、NVIDIA Triton、AWS 多模型伺服器。

Amazon SageMaker AI 提供專門的深度學習容器 (DLC)、程式庫以及用於模型平行性和大型模型推論 (LMI) 的工具，可協助您提高基礎模型的效能。藉助這些選項，您可以針對幾乎任何使用案例快速部署模型，包括基礎模型 (FM)。

進一步了解

以低成本實現高推論效能

Amazon SageMaker AI 的全新推論最佳化工具組可提供高達約 2 倍的輸送量，同時為 Llama 3、Mistral 和 Mixtral 模型等生成式 AI 模型降低達約 50% 的成本。例如，使用 Llama 3-70B 模型，您可以在 ml.p5.48xlarge 執行個體上達到最多 ~2400 個字符/秒 (相較於之前的 ~1200 個字符/秒)，無須進行任何最佳化。您可以選擇模型最佳化技術，例如推測解碼、量化和編譯，或結合多種技術，將它們套用到您的模型，執行基準以評估技術對輸出品質和推論性能的影響，只需按幾下即可部署模型。

馬上開始

在最高效能的基礎設施上部署模型，或使用無伺服器

Amazon SageMaker AI 提供超過 70 種執行個體類型，具有不同等級的運算和記憶體，包括以 AWS Inferentia 為基礎的 Amazon EC2 Inf1 執行個體、AWS 設計和建置的高效能 ML 推論晶片，以及 Amazon EC2 G4dn 等 GPU 執行個體。或者，選擇 Amazon SageMaker 無伺服器推論，輕鬆擴展至每個端點數千個模型、每秒數百萬筆交易 (TPS) 輸送量，以及低於 10 毫秒負擔延遲。

進一步了解

影子測試以驗證 ML 模型的效能

Amazon SageMaker AI 透過使用即時推論請求針對目前 SageMaker 部署的模型進行其效能的影子測試，協助您評估新模型。影子測試可以幫助您於影響最終使用者前，發現潛在的組態錯誤和效能問題。使用 SageMaker AI，您無需花費數週的時間建置自己的影子測試基礎設施。只需選取您要對其進行測試的生產模型，SageMaker AI 就會自動在影子模式下對新模型進行部署，並將生產模型收到的推論請求副本即時路由到新模型。

自動擴展以獲得彈性

您可以使用擴展政策來自動擴展基礎運算資源，以適應推論請求的波動。您可以分別控制每個 ML 模型的擴展政策，以輕鬆處理模型用量的變更，同時最佳化基礎設施成本。

進一步了解

延遲改進和智慧型路由

您可以透過智慧型的方式路由將新的推論請求至可用的執行個體，而不是隨機路由到已經忙於處理推論請求的執行個體，從而減少 ML 模型的推論延遲，平均降低20%。

降低營運負擔，加速實現價值

完全受管模型託管和管理

做為一項全受管服務，Amazon SageMaker AI 負責設定和管理執行個體、軟體版本相容性和修補版本。它還會為您提供端點的內建指標和日誌，您可以用來監控和接收提醒。

進一步了解

與 MLOps 功能的內建整合

Amazon SageMaker AI 模型部署功能原生與 MLOps 功能整合，包括 SageMaker Pipelines (工作流程自動化和協同運作)、SageMaker 專案 (適用於 ML 的 CI/CD)、SageMaker 特徵存放區 (特徵管理)、SageMaker 模型註冊表 (用於追蹤歷程和支援自動化核准工作流程的模型和成品目錄)、SageMaker Clarify (偏差偵測) 和 SageMaker Model Monitor (模型和概念漂移偵測)。因此，無論您是部署一個模型還是數萬個模型，SageMaker AI 都可以協助減輕部署、擴展和管理 ML 模型的操作負擔，同時更快地讓它們進入生產。

進一步了解

適用於 SageMaker Inference 的資源

Video

選取您的 Cookie 偏好設定

Amazon SageMaker 推論

輕鬆部署及管理用於推論的機器學習 (ML) 模型

什麼是 Amazon SageMaker 推論？

SageMaker Inference 的優勢

在生產環境中部署模型，以供任何使用案例進行推論

實現最佳推論效能和成本

使用 SageMaker MLOps 功能降低營運負擔

多種推論選項

即時推論

無伺服器推論

非同步推論

批次轉換

可擴展且經濟高效的推論選項

單一模型端點

在單一端點上的多個模型

序列推論管道

支援大多數機器學習架構和模型伺服器

以低成本實現高推論效能

以低成本實現高推論效能

在最高效能的基礎設施上部署模型，或使用無伺服器

影子測試以驗證 ML 模型的效能

自動擴展以獲得彈性

延遲改進和智慧型路由

降低營運負擔，加速實現價值

完全受管模型託管和管理

與 MLOps 功能的內建整合

適用於 SageMaker Inference 的資源

在 Amazon SageMaker AI 上部署 FM 以提升價格效能比

使用 Amazon SageMaker AI 將 FM 推論擴展到數百個模型

以高效能大規模部署大型基礎模型

使用 Amazon SageMaker AI 輕鬆封裝和部署傳統機器學習與 LLM，第 1 部分：PySDK 改進

使用 Amazon SageMaker AI 輕鬆封裝和部署傳統機器學習與 LLM，第 2 部分：SageMaker Studio 中的互動式使用者體驗

利用 Amazon SageMaker AI 的最新功能，將模型部署成本平均降低 50%

利用全新 Amazon SageMaker AI 容器提升 LLM 的推論效能

如何針對多租用戶 SaaS 使用案例擴展機器學習推論

利用 Amazon SageMaker AI 多模型端點在 GPU 上執行多個深度學習模型

最新消息

如何開始使用

按照此逐步教學課程使用 Amazon SageMaker AI 部署模型以進行推論

依照 Amazon SageMaker AI 開發人員指南開始使用

結束對 Internet Explorer 的支援