AWS 新增搭配 EFA 的 NIXL 支援，以加速大規模 LLM 推論

張貼日期: 2026年3月19日

AWS 宣佈支援搭配 Elastic Fabric Adapter (EFA) 的 NVIDIA Inference Xfer Library (NIXL)，以加速 Amazon EC2 上的解耦式大型語言模型 (LLM) 推論。此整合透過三項重要改進來增強解耦式推論服務：增加 KV-快取輸送量、降低字符間延遲，以及最佳化 KV-快取記憶體使用率。

搭配 EFA 的 NIXL 可在預先填入和解碼節點之間實現高輸送量、低延遲的 KV-快取傳輸，並在各種儲存層之間實現高效率的 KV-快取移動。NIXL 可與所有支援 EFA 的 EC2 執行個體互操作，並與包括 NVIDIA Dynamo、SGLang 和 vLLM 等架構在內的原生架構整合。結合在一起後，搭配 EFA 的 NIXL 可以靈活地與您選擇的 EC2 執行個體和架構進行整合，大規模提供高效能的解耦式推論。

AWS 支援 NIXL 1.0.0 或更高版本，以及 EFA 安裝程式版本 1.47.0 或更高版本，適用於所有 AWS 區域內所有支援 EFA 的 EC2 執行個體類型，無需額外費用。如需詳細資訊，請瀏覽 EFA 文件。

AWS 新增搭配 EFA 的 NIXL 支援，以加速大規模 LLM 推論

了解

資源

開發人員

說明