AWS menambahkan dukungan untuk NIXL dengan EFA untuk mempercepat inferensi LLM dalam skala besar

Dikirim di: 19 Mar 2026

AWS mengumumkan dukungan untuk NVIDIA Inference Xfer Library (NIXL) dengan Elastic Fabric Adapter (EFA) untuk mempercepat inferensi model bahasa besar (LLM) terdisagregasi di Amazon EC2. Integrasi ini meningkatkan penyajian inferensi terpilah melalui tiga peningkatan utama: peningkatan throughput KV-cache, pengurangan latensi antar token, dan pemanfaatan memori KV-cache yang dioptimalkan.

NIXL dengan EFA memungkinkan transfer KV-cache throughput tinggi, latensi rendah antara simpul prefill dan decode, dan memungkinkan pergerakan KV-cache yang efisien antara berbagai lapisan penyimpanan. NIXL dapat dioperasikan dengan semua instans EC2 berkemampuan EFA dan terintegrasi secara native dengan framework termasuk NVIDIA Dynamo, SGlang, dan vLLM. Dikombinasikan, NIXL dengan EFA memungkinkan integrasi fleksibel dengan instans EC2 dan framework pilihan Anda, memberikan inferensi terpilah kinerja dalam skala besar.

AWS mendukung NIXL versi 1.0.0 atau lebih tinggi dengan penginstal EFA versi 1.47.0 atau lebih tinggi pada semua jenis instans EC2 berkemampuan EFA di semua region AWS tanpa biaya tambahan. Untuk informasi selengkapnya, kunjungi dokumentasi.