AWS anuncia compatibilidad de NIXL con EFA para acelerar la inferencia de LLM a escala

Publicado en: 19 de mar de 2026

AWS anuncia la compatibilidad de la biblioteca Inference Xfer Library (NIXL) de NVIDIA con Elastic Fabric Adapter (EFA) para acelerar la inferencia de modelos de lenguaje de gran tamaño (LLM) desagregados en Amazon EC2. Esta integración mejora el servicio de inferencia desagregada mediante tres mejoras clave: mayor rendimiento de la caché KV, menor latencia entre tokens y utilización optimizada de la memoria caché KV.

NIXL con EFA permite la transferencia de caché KV de alto rendimiento y baja latencia entre los nodos de rellenado previo y decodificación, y permite un movimiento eficiente de caché KV entre varias capas de almacenamiento. NIXL es interoperable con todas las instancias de EC2 compatibles con EFA y se integra de forma nativa con marcos como NVIDIA Dynamo, SGLang y vLLM. En combinación, NIXL con EFA permite una integración flexible con la instancia de EC2 y el marco de trabajo que elija, lo que proporciona una inferencia desagregada de rendimiento a escala.

AWS admite la versión 1.0.0 o superior de NIXL y la versión 1.47.0 o superior del instalador de EFA en todos los tipos de instancias de EC2 compatibles con EFA en todas las regiones de AWS sin costo adicional. Para obtener más información, consulte la documentación de EFA.