تدعم SageMaker HyperPod الآن ذاكرة التخزين المؤقت KV المُدارة ذات المستويات المتدرجة والتوجيه الذكي

:تاريخ النشر 26 نوفمبر 2025

تدعم Amazon SageMaker HyperPod الآن ذاكرة التخزين المؤقت KV المُدارة ذات المستويات المتدرجة والتوجيه الذكي لاستدلال نماذج اللغة الكبيرة (LLM)، مما يمكّن العملاء من تحسين أداء الاستدلال للأوامر ذات السياق الطويل والمحادثات متعددة الأدوار. يحتاج العملاء الذين ينشرون تطبيقات LLM للإنتاج إلى أوقات استجابة سريعة أثناء معالجة المستندات الطويلة أو الحفاظ على سياق المحادثة، ولكن أساليب الاستدلال التقليدية تتطلب إعادة حساب آليات الانتباه لجميع الرموز السابقة مع كل جيل جديد من الرموز، مما يؤدي إلى زيادة النفقات الحوسبية والتكاليف المتصاعدة. تعالج ذاكرة KV المؤقتة المُدارة ذات المستويات المتدرجة هذا التحدي من خلال التخزين المؤقت الذكي وإعادة استخدام القيم المحسوبة، بينما يقوم التوجيه الذكي بتوجيه الطلبات إلى المثيلات المثلى.

تعمل هذه الإمكانات على تقليل معدل النقل بنسبة تصل إلى 40%، وتحسين الإنتاجية بنسبة 25%، وتوفير التكاليف بنسبة 25% مقارنة بالتكوينات الأساسية. تستخدم ميزة ذاكرة التخزين المؤقت KV المُدارة ذات المستويات المتدرجة بنية ذات مستويين تجمع بين ذاكرة وحدة المعالجة المركزية المحلية (L1) والتخزين المصنف على مستوى الكتلة (L2). التخزين المتدرج المصنف الأصلي لـ AWS هو الواجهة الخلفية الموصى بها، مما يوفر سعة قابلة للتطوير بحجم تيرابايت وتدرج تلقائي من ذاكرة وحدة المعالجة المركزية إلى SSD المحلية لتحقيق الاستخدام الأمثل للذاكرة والتخزين. نقدم أيضًا Redis كخيار بديل لذاكرة التخزين المؤقت L2. تمكّن البنية إعادة الاستخدام الفعال لأزواج القيم الرئيسية المحسوبة مسبقًا عبر الطلبات. يعمل التوجيه الذكي الذي تم تقديمه حديثًا على زيادة استخدام ذاكرة التخزين المؤقت إلى أقصى حد من خلال ثلاث استراتيجيات قابلة للتكوين: التوجيه المدرك للبادئات لأنماط الأوامر الشائعة، والتوجيه المدرك لـ KV لتحقيق أقصى قدر من كفاءة ذاكرة التخزين المؤقت مع تتبع ذاكرة التخزين المؤقت في الوقت الفعلي، والتوجيه الدائري لأعباء العمل عديمة الحالة. تعمل هذه الميزات معًا بسلاسة. يعمل التوجيه الذكي على توجيه الطلبات إلى المثيلات ذات البيانات المخزنة مؤقتًا ذات الصلة، مما يقلل الوقت اللازم لأول رمز مميز في تحليل المستندات ويحافظ على التدفق الطبيعي للمحادثات في الحوارات متعددة الأدوار. يوفر تكامل الملاحظة المدمج مع Amazon Managed Grafana مقاييس لمراقبة الأداء. يمكنك تمكين هذه الميزات من خلال InferenceEndpointConfig أو SageMaker JumpStart عند نشر النماذج عبر مشغل HyperPod للاستدلال على الكتل المنسقة بواسطة EKS.

تتوفر هذه الميزات في جميع المناطق التي تتوفر فيها SageMaker HyperPod. لمعرفة المزيد، اطلع على دليل المستخدم.