AWS ajoute la prise en charge de NIXL avec EFA pour accélérer l’inférence LLM à grande échelle

Publié le: 19 mars 2026

AWS annonce la prise en charge de la bibliothèque NVIDIA Inference Xfer (NIXL) avec Elastic Fabric Adapter (EFA) afin d’accélérer l’inférence désagrégée par grand modèle de langage (LLM) sur Amazon EC2. Cette intégration améliore le service d’inférence désagrégée grâce à trois améliorations clés : augmentation du débit du cache KV, réduction de la latence entre les jetons et optimisation de l’utilisation de la mémoire du cache KV.

NIXL avec EFA permet un transfert de cache KV à haut débit et à faible latence entre les nœuds de préremplissage et de décodage, et permet un déplacement efficace du cache KV entre les différentes couches de stockage. NIXL est interopérable avec toutes les instances EC2 compatibles EFA et s’intègre de manière native à des frameworks tels que NVIDIA Dynamo, SGlang et vLLM. Combinés, NIXL et EFA permettent une intégration flexible avec votre instance EC2 et le framework de votre choix, fournissant une inférence désagrégée performante à grande échelle.

AWS prend en charge la version 1.0.0 ou supérieure de NIXL avec la version 1.47.0 ou supérieure du programme d’installation EFA sur tous les types d’instances EC2 compatibles avec EFA dans toutes les Régions AWS, sans frais supplémentaires. Pour en savoir plus, consultez la documentation EFA.