AWS 增加对 NIXL 与 EFA 的支持,加速大规模 LLM 推理

发布于: 2026年3月19日

AWS 宣布支持 NVIDIA Inference Xfer Library(NIXL)与 Elastic Fabric Adapter(EFA)配合使用,从而加速 Amazon EC2 上的分离式大语言模型(LLM)推理。这一集成通过三项关键改进增强了分离式推理服务:提升 KV 缓存吞吐量、降低令牌间延迟,并优化 KV 缓存内存利用率。

NIXL 与 EFA 配合使用,可在预填充节点和解码节点之间实现高吞吐量、低延迟的 KV 缓存传输,并支持在不同存储层之间高效移动 KV 缓存。NIXL 可与所有支持 EFA 的 EC2 实例互操作,并原生集成 NVIDIA Dynamo、SGLang 和 vLLM 等框架。NIXL 与 EFA 结合使用,可以灵活地与您选择的 EC2 实例和框架集成,大规模提供高性能的分离式推理。

在所有 AWS 区域中的所有支持 EFA 的 EC2 实例类型上,AWS 均支持 NIXL 1.0.0 或更高版本(搭配 EFA 安装程序 1.47.0 或更高版本),无需额外费用。有关更多信息,请查看 EFA 文档