Amazon SageMaker 推出了新的生成式 AI 推理优化功能
今天,Amazon SageMaker 宣布全面推出一项新的推理功能,该功能可将生成式 AI 模型(如 Llama 3、Mistral 和 Mixtral 模型)的吞吐量提高约 2 倍,同时将成本降低约 50%。例如,使用 Llama 3-70B 模型,在不进行任何优化的情况下,在 ml.p5.48xlarge 实例上最多可以达到大约 2,400 个代币/秒,而之前的速度约为 1200 个代币/秒。
凭借这项新功能,客户可以从一系列最新的模型优化技术中进行选择,例如推测解码、量化和编译,并将其应用于他们的生成式 AI 模型。SageMaker 将承担预置所需硬件的繁重工作,因为硬件将用于运行优化方案以及深度学习框架和库。客户可获得 SageMaker 提供的推测解码解决方案的开箱即用支持,该解决方案已针对各种常用的开源模型进行了大规模性能测试,或者客户也可以使用自己的推测解码解决方案。在量化方面,SageMaker 可确保在不同模型架构上兼容和支持各种精度类型。在编译方面,SageMaker 的运行时基础架构可确保高效加载和缓存优化后的模型,从而缩短自动扩缩时间。
客户可以通过适用于 Python 的 Amazon SDK (Boto3)、SageMaker Python SDK 或 AWS 命令行界面 (AWS CLI) 利用这一新功能。此功能现已在以下区域全面推出:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、亚太地区(孟买)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、加拿大(中部)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(斯德哥尔摩)和南美洲(圣保罗)。