AWS 新增搭配 EFA 的 NIXL 支援,以加速大規模 LLM 推論
張貼日期:
2026年3月19日
AWS 宣佈支援搭配 Elastic Fabric Adapter (EFA) 的 NVIDIA Inference Xfer Library (NIXL),以加速 Amazon EC2 上的解耦式大型語言模型 (LLM) 推論。此整合透過三項重要改進來增強解耦式推論服務:增加 KV-快取輸送量、降低字符間延遲,以及最佳化 KV-快取記憶體使用率。
搭配 EFA 的 NIXL 可在預先填入和解碼節點之間實現高輸送量、低延遲的 KV-快取傳輸,並在各種儲存層之間實現高效率的 KV-快取移動。NIXL 可與所有支援 EFA 的 EC2 執行個體互操作,並與包括 NVIDIA Dynamo、SGLang 和 vLLM 等架構在內的原生架構整合。結合在一起後,搭配 EFA 的 NIXL 可以靈活地與您選擇的 EC2 執行個體和架構進行整合,大規模提供高效能的解耦式推論。
AWS 支援 NIXL 1.0.0 或更高版本,以及 EFA 安裝程式版本 1.47.0 或更高版本,適用於所有 AWS 區域內所有支援 EFA 的 EC2 執行個體類型,無需額外費用。如需詳細資訊,請瀏覽 EFA 文件。