AWS เพิ่มการรองรับ NIXL ด้วย EFA เพื่อเร่งการอนุมานของ LLM ในปริมาณงานมาก
AWS ประกาศรองรับ NVIDIA Inference Xfer Library (NIXL) ร่วมกับ Elastic Fabric Adapter (EFA) เพื่อเร่งการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) แบบแยกส่วนบน Amazon EC2 การผสานรวมนี้ช่วยเพิ่มประสิทธิภาพการให้บริการการอนุมานแบบแยกส่วนผ่านการปรับปรุงที่สำคัญสามประการ ได้แก่ การเพิ่มอัตราการโอนถ่ายข้อมูลของแคช KV การลดความหน่วงระหว่างโทเค็น และการเพิ่มประสิทธิภาพการใช้หน่วยความจำแคช KV ให้เหมาะสมที่สุด
NIXL ที่มี EFA ช่วยให้การถ่ายโอนแคช KV ระหว่างโหนดการเติมข้อมูลล่วงหน้าและการถอดรหัสมีอัตราการโอนถ่ายข้อมูลสูงและมีความหน่วงต่ำ อีกทั้งยังช่วยให้การเคลื่อนย้ายแคช KV ระหว่างเลเยอร์การจัดเก็บข้อมูลต่างๆ เป็นไปอย่างมีประสิทธิภาพ NIXL สามารถทำงานร่วมกับอินสแตนซ์ EC2 ที่เปิดใช้งาน EFA ทุกรูปแบบ และผสานรวมเข้ากับเฟรมเวิร์กแบบเนทีฟ รวมถึง NVIDIA Dynamo, SGLang และ vLLM ด้วย เมื่อผสานรวม NIXL กับ EFA เข้าด้วยกัน จะช่วยให้สามารถผสานรวมกับอินสแตนซ์ EC2 และเฟรมเวิร์กที่คุณเลือกใช้ได้อย่างยืดหยุ่น พร้อมทั้งให้ประสิทธิภาพการประมวลผลแบบแยกส่วนในปริมาณงานมาก
AWS รองรับ NIXL เวอร์ชัน 1.0.0 ขึ้นไปด้วยโปรแกรมติดตั้ง EFA เวอร์ชัน 1.47.0 ขึ้นไปในอินสแตนซ์ EC2 ที่เปิดใช้งาน EFA ทุกรูปแบบใน AWS Region โดยไม่มีค่าใช้จ่ายเพิ่มเติม สำหรับข้อมูลเพิ่มเติม โปรดเข้าไปที่เอกสารประกอบของ EFA