Amazon SageMaker AI 推出最佳化的生成式 AI 推論建議

張貼日期: 2026年4月21日

Amazon SageMaker AI 現在支援推論建議,這是一項全新功能,可消除手動進行最佳化和基準測試的麻煩,進而提供最佳推論效能。透過提供具有效能指標的經驗證、最佳化部署組態,SageMaker AI 可加快投入實際作業環境的速度,並讓您的模型開發人員專注於建立準確的模型,而無須管理基礎架構。

客戶會帶來自己的生成式 AI 模型、定義預期的流量模式,並指定效能目標 (針對成本進行最佳化、最小化延遲或最大化輸送量)。然後,SageMaker AI 會分析模型的架構,在多個執行個體類型上套用符合該目標的最佳化,並使用 NVIDIA AIPerf 在實際 GPU 基礎架構上對每個組態進行基準測試。透過評估多個執行個體類型,客戶能夠針對其工作負載選取最具價格效能的選項。最終結果具有經過驗證指標 (包括產生第一個字符的時間、字符間延遲、請求延遲百分比、輸送量和成本預測等),可隨時用於部署。

 此功能目前適用於七個 AWS 區域:美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、美國東部 (俄亥俄)、亞太地區 (東京)、歐洲 (愛爾蘭)、亞太地區 (新加坡) 和歐洲 (法蘭克福)。若要進一步了解,請參閱 SageMaker AI 文件