Amazon SageMaker 推出「縮減至零」,讓人工智慧推論協助客戶節省成本
我們很高興宣布 Amazon SageMaker Inference 中的新功能「縮減至零」,該功能可讓端點在閒置期間縮減至零執行個體。此功能可以大幅降低使用 AI 模型執行推論的成本,對於具有可變流量模式的應用程式 (例如聊天機器人、內容仲裁系統和其他生成式 AI 使用案例) 特別有益。
透過「縮減至零」,客戶可以將其 SageMaker 推論端點設定為在不使用時自動縮減至零執行個體,然後在流量恢復時快速擴展。此功能適用於具有可預測流量模式、間歇性推論流量和開發/測試環境的案例。使用 SageMaker 推論元件,實作「縮減至零」可說是相當簡單。客戶可以透過 AWS SDK for Python (Boto3)、SageMaker Python 開發套件或 AWS Command Line Interface (AWS CLI),來設定自動擴調整規模政策。該程序包括設定已啟用受管理執行個體擴展的端點、設定擴展政策,以及建立 CloudWatch 警示以觸發擴展動作。
現在在支援 Amazon SageMaker 的所有 AWS 區域都可以使用「縮減至零」。若要進一步了解如何實作「縮減至零」,並針對生成式 AI 部署最佳化成本,請造訪我們的文件頁面。