Amazon SageMaker AI 现在支持 EAGLE 推测解码

发布于: 2025年11月25日

Amazon SageMaker AI 现在支持 EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency)推测解码,可以将大语言模型的推理吞吐量提高最多 2.5 倍。这项功能让模型能够同时预测并验证多个 token,而不是逐个处理,从而缩短人工智能应用程序的响应时间。

将人工智能应用程序部署到生产环境后,客户需要具备以低延迟和高吞吐量运行模型的能力,以便为用户提供快速响应。数据科学家和机器学习工程师无法在不牺牲输出质量、也不需要对模型进行复杂重构的前提下,有效地加速 token 生成的有效方法,这使得他们在实际流量下难以达到预期的性能目标。团队花费大量时间优化基础设施,而不是改进人工智能应用程序。借助 EAGLE 推测解码,SageMaker AI 让客户能够提高推理吞吐量,因为它支持模型并行生成并验证多个 token,而不是逐个处理,从而在保持输出质量不变的同时,显著提高吞吐量。SageMaker AI 会根据您的模型架构自动选择 EAGLE 2 或 EAGLE 3,并提供内置优化作业,这些作业使用精选数据集或您自己的应用程序数据来训练专门的预测头。然后,您无需更改基础设施,即可通过现有的 SageMaker AI 推理工作流程部署经过优化的模型,从而能够交付性能可预测且响应更快的人工智能应用程序。

EAGLE 推测解码已在以下 AWS 区域推出:美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、美国东部(俄亥俄州)、亚太地区(东京)、欧洲地区(爱尔兰)、亚太地区(新加坡)和欧洲地区(法兰克福)。


要了解有关 EAGLE 推测解码的更多信息,请单击此处查看 AWS 新闻博客,并单击此处查看 SageMaker AI 文档。