AWS 增加对 NIXL 与 EFA 的支持，加速大规模 LLM 推理

发布于: 2026年3月19日

AWS 宣布支持 NVIDIA Inference Xfer Library（NIXL）与 Elastic Fabric Adapter（EFA）配合使用，从而加速 Amazon EC2 上的分离式大语言模型（LLM）推理。这一集成通过三项关键改进增强了分离式推理服务：提升 KV 缓存吞吐量、降低令牌间延迟，并优化 KV 缓存内存利用率。

NIXL 与 EFA 配合使用，可在预填充节点和解码节点之间实现高吞吐量、低延迟的 KV 缓存传输，并支持在不同存储层之间高效移动 KV 缓存。NIXL 可与所有支持 EFA 的 EC2 实例互操作，并原生集成 NVIDIA Dynamo、SGLang 和 vLLM 等框架。NIXL 与 EFA 结合使用，可以灵活地与您选择的 EC2 实例和框架集成，大规模提供高性能的分离式推理。

在所有 AWS 区域中的所有支持 EFA 的 EC2 实例类型上，AWS 均支持 NIXL 1.0.0 或更高版本（搭配 EFA 安装程序 1.47.0 或更高版本），无需额外费用。有关更多信息，请查看 EFA 文档。

AWS 增加对 NIXL 与 EFA 的支持，加速大规模 LLM 推理

了解

资源

开发人员

帮助