AWS bổ sung hỗ trợ cho NIXL với EFA để tăng tốc suy luận LLM trên quy mô lớn

Ngày đăng: 19 Th03 2026

AWS công bố hỗ trợ cho NVIDIA Inference Xfer Library (NIXL) với Trình chuyển cấu trúc linh hoạt (EFA) để tăng tốc suy luận mô hình ngôn ngữ lớn (LLM) phân tách trên Amazon EC2. Sự tích hợp này giúp tăng cường khả năng phục vụ suy luận phân tách thông qua ba hạng mục cải tiến chính: tăng thông lượng bộ đệm khóa–giá trị, giảm độ trễ giữa các mã thông báo và tối ưu hóa việc sử dụng bộ nhớ đệm khóa–giá trị.

NIXL với EFA tạo điều kiện truyền bộ đệm khóa–giá trị thông lượng cao, độ trễ thấp giữa các nút nạp trước và giải mã, đồng thời, tạo điều kiện di chuyển bộ đệm khóa–giá trị hiệu quả giữa các lớp lưu trữ khác nhau. NIXL có thể tương tác với tất cả các phiên bản EC2 hỗ trợ EFA và tích hợp thuần với nhiều khung, trong đó có NVIDIA Dynamo, SGLang và vLLM. Kết hợp với nhau, NIXL với EFA tạo điều kiện tích hợp linh hoạt với phiên bản EC2 và khung bạn lựa chọn, đem đến khả năng suy luận phân tách hiệu suất cao trên quy mô lớn.

AWS hỗ trợ NIXL phiên bản 1.0.0 trở lên với trình cài đặt EFA phiên bản 1.47.0 trở lên trên tất cả các loại phiên bản EC2 hỗ trợ EFA ở tất cả các khu vực AWS mà không phải trả thêm phí. Để biết thêm thông tin, hãy truy cập tài liệu về EFA.