AWS เพิ่มการรองรับ NIXL ด้วย EFA เพื่อเร่งการอนุมานของ LLM ในปริมาณงานมาก

โพสต์บน: 19 มี.ค. 2026

AWS ประกาศรองรับ NVIDIA Inference Xfer Library (NIXL) ร่วมกับ Elastic Fabric Adapter (EFA) เพื่อเร่งการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) แบบแยกส่วนบน Amazon EC2 การผสานรวมนี้ช่วยเพิ่มประสิทธิภาพการให้บริการการอนุมานแบบแยกส่วนผ่านการปรับปรุงที่สำคัญสามประการ ได้แก่ การเพิ่มอัตราการโอนถ่ายข้อมูลของแคช KV การลดความหน่วงระหว่างโทเค็น และการเพิ่มประสิทธิภาพการใช้หน่วยความจำแคช KV ให้เหมาะสมที่สุด

NIXL ที่มี EFA ช่วยให้การถ่ายโอนแคช KV ระหว่างโหนดการเติมข้อมูลล่วงหน้าและการถอดรหัสมีอัตราการโอนถ่ายข้อมูลสูงและมีความหน่วงต่ำ อีกทั้งยังช่วยให้การเคลื่อนย้ายแคช KV ระหว่างเลเยอร์การจัดเก็บข้อมูลต่างๆ เป็นไปอย่างมีประสิทธิภาพ NIXL สามารถทำงานร่วมกับอินสแตนซ์ EC2 ที่เปิดใช้งาน EFA ทุกรูปแบบ และผสานรวมเข้ากับเฟรมเวิร์กแบบเนทีฟ รวมถึง NVIDIA Dynamo, SGLang และ vLLM ด้วย เมื่อผสานรวม NIXL กับ EFA เข้าด้วยกัน จะช่วยให้สามารถผสานรวมกับอินสแตนซ์ EC2 และเฟรมเวิร์กที่คุณเลือกใช้ได้อย่างยืดหยุ่น พร้อมทั้งให้ประสิทธิภาพการประมวลผลแบบแยกส่วนในปริมาณงานมาก

AWS รองรับ NIXL เวอร์ชัน 1.0.0 ขึ้นไปด้วยโปรแกรมติดตั้ง EFA เวอร์ชัน 1.47.0 ขึ้นไปในอินสแตนซ์ EC2 ที่เปิดใช้งาน EFA ทุกรูปแบบใน AWS Region โดยไม่มีค่าใช้จ่ายเพิ่มเติม สำหรับข้อมูลเพิ่มเติม โปรดเข้าไปที่เอกสารประกอบของ EFA

AWS เพิ่มการรองรับ NIXL ด้วย EFA เพื่อเร่งการอนุมานของ LLM ในปริมาณงานมาก

เรียนรู้

ทรัพยากร

นักพัฒนา

ความช่วยเหลือ