AWS, LLM çıkarımını büyük ölçekte hızlandırmak için EFA ile NIXL desteği ekliyor
AWS, Amazon EC2'de ayrılmış büyük dil modeli (LLM) çıkarımını hızlandırmak için Esnek Yapı Bağdaştırıcısı (EFA) özellikli NVIDIA Inference Xfer Library (NIXL) desteğini duyurdu. Bu entegrasyon, üç önemli iyileştirme ile ayrıştırılmış çıkarım sunumunu geliştiriyor; KV-önbellek aktarım hızı, belirteçler arası gecikme süresinde azalma ve optimize edilmiş KV-önbellek bellek kullanımı.
EFA'lı NIXL, ön doldurma ve kod çözme düğümleri arasında yüksek aktarım hızlı, düşük gecikmeli KV-önbellek aktarımı sağlar ve çeşitli depolama katmanları arasında verimli KV-önbellek hareketi sağlar. NIXL, tüm EFA özellikli EC2 bulut sunucularıyla birlikte çalışabilir ve NVIDIA Dynamo, SGlang ve vLLM gibi çerçevelerle yerel olarak entegre olur. EFA ile NIXL birlikte kullanıldığında EC2 bulut sunucunuz ve tercih ettiğiniz çerçeveyle esnek entegrasyon ve ölçekte performanslı ayrıştırılmış çıkarım sağlar.
AWS, tüm AWS bölgelerindeki EFA özellikli EC2 bulut sunucusu türlerinde EFA yükleyici sürümü 1.47.0 veya üstü ile NIXL sürüm 1.0.0 veya daha yüksek sürümlerini ek ücret istemeksizin destekler. Daha fazla bilgi için EFA belgelerini inceleyin.