AWS adiciona suporte à NIXL com o EFA para acelerar a inferência do LLM em grande escala

Publicado: 19 de mar de 2026

A AWS anuncia suporte para a NVIDIA Inference Xfer Library (NIXL) com o Elastic Fabric Adapter (EFA) para acelerar a inferência desagregada do grande modelo de linguagem (LLM) no Amazon EC2. Essa integração aprimora a inferência desagregada por meio de três melhorias principais: maior throughput do KV-cache, menor latência entre tokens e utilização otimizada da memória do KV-cache.

A NIXL com o EFA permite a transferência do KV-cache de alto throughput e baixa latência entre os nós de pré-preenchimento e decodificação, além de viabilizar a movimentação eficiente do KV-cache entre várias camadas de armazenamento. A NIXL é interoperável com todas as instâncias do EC2 habilitadas para EFA e se integra nativamente a frameworks, incluindo NVIDIA Dynamo, SGLang e vLLM. Em conjunto, a NIXL com o EFA permite uma integração flexível com sua instância do EC2 e o framework de sua escolha, para oferecer a inferência desagregada de alta performance em grande escala.

A AWS oferece suporte à NIXL versão 1.0.0 ou superior com o instalador do EFA versão 1.47.0 ou superior em todos os tipos de instância do EC2 habilitados para EFA em todas as regiões da AWS, sem custo adicional. Para obter mais informações, consulte a documentação do EFA.