AWS, 대규모 LLM 추론을 가속화할 EFA 사용 NIXL 지원 추가

게시된 날짜: 2026년 3월 19일

AWS는 Amazon EC2에서 분산형 대규모 언어 모델(LLM) 추론 속도를 높이기 위해 Elastic Fabric Adapter(EFA)를 사용하는 NVIDIA Inference Xfer Library(NIXL)를 지원한다고 발표했습니다. 이번 통합은 KV 캐시 처리량 증가, 토큰 간 지연 시간 감소, KV 캐시 메모리 활용 최적화라는 3가지 주요 개선을 통해 분산형 추론 서비스 성능을 끌어올립니다.

EFA 사용 NIXL를 통해 프리필 노드와 디코딩 노드 간에 높은 처리량과 낮은 지연 시간의 KV 캐시 전송이 가능하며, 다양한 스토리지 계층 간에 효율적인 KV 캐시 이동이 가능합니다. NIXL은 EFA를 지원하는 모든 EC2 인스턴스와 상호 운용 가능하며 NVIDIA Dynamo, SGLang, vLLM을 포함한 프레임워크와 기본적으로 통합됩니다. NIXL과 EFA의 결합으로 EC2 인스턴스, 원하는 프레임워크와 유연하게 통합하여 대규모로 성능이 뛰어난 분산형 추론을 제공할 수 있게 되었습니다.

AWS는 추가 비용 없이 모든 AWS 리전의 모든 EFA 지원 EC2 인스턴스 유형에서 NIXL 버전 1.0.0 이상, EFA 설치 프로그램 버전 1.47.0 이상을 지원합니다. 자세한 내용은 설명서를 참조하세요.