AWS fügt Unterstützung für NIXL mit EFA hinzu, um LLM-Inferenz nach Maß zu beschleunigen
AWS kündigt die Unterstützung von NVIDIA Inference Xfer Library (NIXL) mit Elastic Fabric Adapter (EFA) an, um die dezentrale Inferenz großer Sprachmodelle (LLM) auf Amazon EC2 zu beschleunigen. Diese Integration optimiert die disaggregierte Inferenzbereitstellung durch drei zentrale Verbesserungen: erhöhter KV-Cache-Durchsatz, geringere Latenz zwischen den Token und optimierte KV-Cache-Speichernutzung.
NIXL mit EFA ermöglicht eine KV-Cache-Übertragung mit hohem Durchsatz und niedriger Latenz zwischen Prefill- und Decode-Knoten und ermöglicht eine effiziente KV-Cache-Bewegung zwischen verschiedenen Speicherschichten. NIXL ist mit allen EFA-fähigen EC2-Instances kompatibel und lässt sich nativ in Frameworks wie NVIDIA Dynamo, SGLang und vLLM integrieren. In Kombination ermöglicht NIXL mit EFA eine flexible Integration mit Ihrer EC2-Instance und dem Framework Ihrer Wahl und bietet leistungsstarke disaggregierte Inferenz nach Maß.
AWS unterstützt NIXL-Version 1.0.0 oder höher mit EFA-Installationsversion 1.47.0 oder höher auf allen EFA-fähigen EC2-Instance-Typen in allen AWS-Regionen ohne zusätzliche Kosten. Weitere Informationen finden Sie in der EFA-Dokumentation.