Amazon SageMaker 推出全新生成式 AI 推理最佳化功能
Amazon SageMaker 今天宣布正式推出全新的推理功能,該功能不僅將生成式 AI 模型 (如 Llama 3、Mistral 和 Mixtral 模型) 的輸送量提高了近 2 倍,還將成本降低了近 50%。例如,使用 Llama 3-70B 模型,您可以在 ml.p5.48xlarge 執行個體上達到最多 ~2400 個字符/秒 (相較於之前的 ~1200 個字符/秒),無須進行任何最佳化。
借助這項新功能,客戶可以從最新模型最佳化技術的功能表中選擇,例如推測解碼、量化和編譯,並將其應用於生成式 AI 模型。SageMaker 將負責配置執行最佳化配方所需的硬體,以及深度學習架構和程式庫。SageMaker 為選用推測解碼解決方案的客戶提供開箱即用的支援,該解決方案已針對各種熱門的開放原始碼模型進行大規模的效能測試,或者客戶也可以攜帶自己的推測解碼解決方案。量化方面,SageMaker 保證不同模型架構上的精度類型都具備相容性和支援功能。在編譯方面,SageMaker 的執行時期基礎架構可確保有效率地載入和快取最佳化模型,以縮短自動擴展時間。
客戶可以透過 AWS SDK for Python (Boto3)、SageMaker Python SDK,或 AWS Command Line Interface (AWS CLI) 利用這項新功能。這項新功能目前於以下 AWS 區域提供︰美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨)、亞太地區 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (巴黎)、歐洲 (斯德哥爾摩) 和南美洲 (聖保羅)。
瀏覽我們的文件頁面和 AWS ML 部落格瞭解更多資訊。