تدعم كتل Amazon SageMaker HyperPod Slurm الآن تحديد الحد الأدنى لمتطلبات السعة مع التوفير المستمر
يدعم Amazon SageMaker HyperPod الآن الحد الأدنى من متطلبات السعة (MinCount) للكتل التي تستخدم التكوين والتنسيق والإدارة المؤتمتة لـ Slurm مع التوفير المستمر. من خلال التوفير المستمر، يوفر HyperPod الكتل ذات السعة الجزئية المتاحة حتى تتمكن من بدء مهام الذكاء الاصطناعي/تعلُّم الآلة الخاصة بك بسرعة، مع الاستمرار في توفير المثيلات المتبقية بشكل غير متزامن في الخلفية. في حين أنَّ هذا الأمر يوفر المرونة، تتطلب بعض أعباء العمل التدريبية حدًا أدنى مضمونًا من أعداد العقد قبل أن تتمكن من البدء بفعالية. يتيح لك MinCount تحديد الحد الأدنى لعدد المثيلات الذي يجب توفيره بنجاح قبل انتقال مجموعة المثيل إلى حالة InService، مما يمنحك مزيدًا من التحكم في الوقت الذي تصبح فيه الكتلة الخاصة بك متاحة لجدولة المهام.
يعد هذا الأمر مفيدًا بشكل خاص لأعباء العمل التدريبية الموزعة باستخدام أطر عمل مثل PyTorch FSDP أو Megatron-LM أو NVIDIA NeMo، حيث يتم تكوين مهام التدريب بشكل شائع مع عدد ثابت من العقد المشاركة وقد لا تبدأ بكفاءة أو بشكل صحيح مع سعة الكتلة الجزئية. كما أنه يفيد الفرق التي تحتاج إلى ضمان عدد أساسي من وحدات معالجة الرسومات لتلبية أهداف SLA أو كفاءة التكلفة قبل الالتزام بالتشغيل التدريبي.
يمكنك تحديد MinInstanceCount في طلب CreateCluster أو UpdateCluster API لتعيين حد أدنى للسعة لمجموعة مثيل. تظل مجموعة المثيل في حالة "الإنشاء" أو "التحديث" حتى يتم استيفاء الحد الأدنى، ثم تنتقل إلى حالة "InService" وتصبح العقد متاحة لجدولة مهمة Slurm. يستمر HyperPod في إطلاق مثيلات إضافية تتجاوز MinCount حتى يتم الوصول إلى العدد المستهدف. إذا تعذر تحقيق MinCount في غضون 3 ساعات، يقوم النظام تلقائيًا بإرجاع مجموعة المثيل إلى آخر حالة جيدة معروفة لها.
يتوفر MinCount لكتل Slurm ذات التوفير المستمر في جميع مناطق AWS حيث يتم دعم Amazon SageMaker HyperPod. للبدء في تحديد الحد الأدنى لمتطلبات السعة للكتلة الخاصة بك، اطّلع على متطلبات الحد الأدنى للسعة (MinCount) في وثائق Amazon SageMaker AI.