Amazon SageMaker AI 現在支援 EAGLE 推測解碼
Amazon SageMaker AI 現在支援 EAGLE (用於提升語言模型效率的外推演算法) 推測解碼,以將大語言模型推論輸送量提高至高達 2.5 倍。此功能使模型能夠同時預測和驗證多個字符,而非逐一處理,從而改善 AI 應用程式的回應時間。
當客戶將 AI 應用程式部署至正式環境中時,他們需要能夠提供低延遲和高輸送量的模型的能力,以提供反應迅速的使用者體驗。資料科學家和 ML 工程師缺乏在不犧牲輸出品質或不需要複雜模型重構的情況下,加速字符產生的有效方法,因此難以滿足真實流量下的效能預期。團隊會花費大量時間最佳化基礎結構,而不是改進他們的 AI 應用程式。有了 EAGLE 推測解碼,SageMaker AI 可讓客戶加速推論輸送量,方法是透過允許模型平行產生和驗證多個字符,而非逐一處理,從而在保持相同輸出品質的同時,大幅提高輸出量。SageMaker AI 會根據您的模型架構自動在 EAGLE 2 和 EAGLE 3 之間進行選擇,並提供內建的最佳化工作,這些工作可使用精選資料集或您自己的應用程式資料來訓練專用的預測頭。然後,您可以透過現有的 SageMaker AI 推論工作流程部署最佳化模型,而無需變更基礎結構,使您能夠以可預測的效能提供更快的 AI 應用程式。
您可以在下列 AWS 區域使用 EAGLE 猜測解碼:美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、美國東部 (俄亥俄)、亞太地區 (東京)、歐洲 (愛爾蘭)、亞太地區 (新加坡) 和歐洲 (法蘭克福)
若要進一步了解 EAGLE 推測解碼,請瀏覽這裡的 AWS 新聞部落格,以及這裡的 SageMaker AI 文件。