亚马逊AWS官方博客

Category: Artificial Intelligence

高性能大规模机器学习分布式训练 – EFA(Elastic Fabric Adapter)最佳实践

大语言模型 LLM 和生成式人工智能进一步推动了新一代机器学习的大规模普及和应用,同时也有越来越多的团队选择构建自己的大(语言)模型,以实现更好的生成效果。但是,高效地训练这些包含数十亿甚至数千亿参数的模型是一个非常大的挑战,因为模型越大,理论上所需要的计算资源就越多,如何设计一个高性能的基础设施来支持这些密集型的分布式工作负载,已经成为一个关键性的问题。为了解决这个难题,在亚马逊云科技平台上可以使用面向大规模机器学习(以及高性能计算 HPC)场景下的 Elastic Fabric Adapter(下文称 EFA),它是一种 Amazon EC2 实例上创新的网络接口,可以显著提高机器学习和高性能计算应用程序的网络性能。

云端生成式 AI – 基于 Amazon EKS 的 Stable Diffusion 图像生成方案

在生成式 AI 的图像生成场景下,我们基于 Amazon EKS,实现了一种更加适合 toC 场景的解决方案,它将帮助客户从容应对大并发量的请求,达到分钟级冷启动;使用更简单的控制平面,为客户提供更灵活的架构,轻松实现各种功能模块设计;同时,它还利用 Amazon Spot instances,帮助客户有效控制成本。

使用 Rolling Batch 加速 SageMaker LLM 模型推理性能

本文介绍了近期业界新的 Rolling Batch(continually batch)的批处理推理优化技术原理,并给出了在 Amazon SageMaker 上使用 vLLM 框架进行 Rolling Batch 推理优化的实践和测试对比,可以帮助客户在实际生产场景中通过简单配置,立竿见影地提升线上部署的 LLM 的推理吞吐量,降低响应时延,节省资源。