تضيف AWS دعمًا لـ NIXL مع EFA لتسريع استدلال LLM على نطاق واسع
تعلن AWS عن دعمها لمكتبة NVIDIA Inference Xfer (NIXL) مع Elastic Fabric Adapter (EFA) لتسريع استدلال نموذج اللغة الكبير (LLM) المصنّف على Amazon EC2. يعمل هذا التكامل على تحسين خدمة الاستدلال المصنّفة من خلال ثلاثة تحسينات رئيسية: زيادة معدل نقل KV-cache، وتقليل زمن الاستجابة بين الرموز، وتحسين استخدام ذاكرة KV-cache.
يمكّن NIXL مع EFA نقل KV-cache ذات الإنتاجية العالية وزمن الاستجابة المنخفض بين عقد الملء المسبق وفك التشفير، كما يمكّن حركة KV-cache بكفاءة بين طبقات التخزين المختلفة. NIXL قابل للتشغيل المتبادل مع جميع مثيلات EC2 التي تدعم EFA ويتكامل أصلاً مع أطر العمل بما في ذلك NVIDIA Dynamo وSGlang وvLLM. بالإضافة إلى ذلك، يمكّن NIXL مع EFA التكامل المرن مع مثيل EC2 الخاص بك وإطار العمل الذي تختاره، مما يوفر استدلالًا مصنّفًا عالي الأداء على نطاق واسع.
تدعم AWS الإصدار 1.0.0 من NIXL أو أعلى مع الإصدار 1.47.0 من مثبت EFA أو أعلى على جميع أنواع مثيلات EC2 التي تدعم EFA في جميع مناطق AWS دون أي تكلفة إضافية. لمزيد من المعلومات، تفضل بزيارة وثائق EFA.