AWS introduce il supporto per NIXL con EFA per accelerare l'inferenza LLM su larga scala
AWS presenta il supporto per NVIDIA Inference Xfer Library (NIXL) con Elastic Fabric Adapter (EFA) per accelerare l'inferenza disaggregata dei modelli linguistici di grandi dimensioni (LLM) su Amazon EC2. L'integrazione migliora la distribuzione dell'inferenza disaggregata su tre fronti: aumento del throughput della KV-cache, riduzione della latenza inter-token e ottimizzazione dell'utilizzo della memoria della KV-cache.
NIXL con EFA consente il trasferimento della KV-cache ad alto throughput e bassa latenza tra i nodi di prefill e decode e garantisce uno spostamento efficiente della KV-cache tra i diversi livelli di archiviazione. NIXL è compatibile con tutte le istanze EC2 abilitate per EFA e si integra nativamente con framework come NVIDIA Dynamo, SGLang e vLLM. La combinazione di NIXL con EFA consente un'integrazione flessibile con l'istanza EC2 e il framework di propria scelta, garantendo un'inferenza disaggregata performante su larga scala.
AWS supporta NIXL versione 1.0.0 o successive con EFA installer versione 1.47.0 o successive su tutti i tipi di istanze EC2 abilitate per EFA in tutte le regioni AWS, senza costi aggiuntivi. Per ulteriori informazioni, consulta la documentazione di EFA.