Amazon SageMaker AI 現在支援具有自動執行個體備援的容量感知推論

張貼日期: 2026年5月1日

Amazon SageMaker AI 推論端點現在支援根據依優先順序排序的執行個體類型清單進行彈性佈建。當您首選的執行個體類型容量不足時，SageMaker AI 會自動從清單中的下一個可用選項進行佈建，讓端點建立和自動調整能夠順暢執行，而無需手動干預。這能為在生產環境中部署 AI/ML 模型的團隊提供彈性，以便輕鬆處理容量限制，確保端點能可靠地啟動並隨需擴展。

透過執行個體集區支援，您可以定義依優先順序排序的執行個體類型清單，而 SageMaker AI 會根據您的清單依序自動佈建容量。這適用於端點建立、更新和擴展。縮減規模時，SageMaker AI 會先移除優先順序最低的執行個體，並在機群縮減時保留您首選的基礎結構。這適用於單一模型端點、推論元件型端點，以及非同步推論端點 (包括可縮減至零的端點)，其中 SageMaker AI 會在重新向上擴展時從您優先順序最高的可用集區進行佈建。

由於備用執行個體類型在 GPU 記憶體和運算能力方面有所不同，因此您可以在依優先順序排序的清單中，為每個執行個體類型指定不同的最佳化模型。您可以自行準備這些成品，也可以使用 SageMaker AI 推論建議，這些建議會針對每個執行個體類型產生特定硬體的最佳化組態。此外，適用於個別執行個體類型的 CloudWatch 指標可讓您根據單一端點內的硬體類型查看延遲、輸送量、GPU 使用率和執行個體計數。

此功能現已在美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、加拿大 (中部)、南美洲 (聖保羅)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (法蘭克福)、歐洲 (斯德哥爾摩)、歐洲 (蘇黎世)、亞太地區 (東京)、亞太地區 (首爾)、亞太地區 (新加坡)、亞太地區 (雪梨)、亞太地區 (孟買) 和亞太區域 (雅加達) 推出。若要進一步了解，請參閱 Amazon SageMaker AI 文件。

Amazon SageMaker AI 現在支援具有自動執行個體備援的容量感知推論

了解

資源

開發人員

說明