يعلن Amazon SageMaker HyperPod عن دعم عامل المراقبة الصحية لكتل Slurm

:تاريخ النشر 15 سبتمبر 2025

اليوم، تعلن Amazon SageMaker HyperPod عن التوافر العام لعامل المراقبة الصحية لمجموعات Slurm. يساعدك SageMaker HyperPod على توفير مجموعات مرنة لتشغيل أعباء عمل التعلم الآلي (ML) وتطوير أحدث النماذج مثل نماذج اللغة الكبير (LLMs) ونماذج الانتشار ونماذج التأسيس (FMs). يقوم وكيل المراقبة الصحية بإجراء فحوصات صحية سلبية للمثيلات لتحديد المشكلات في المجالات الرئيسية دون التأثير على سلوك التطبيق أو أدائه، ويحدد حالات الفشل على الفور، ويستبدل أي حالات غير صحية للحفاظ على سير مهام التدريب الخاصة بك بسلاسة. 

يعمل الوكيل باستمرار على جميع العقد المستندة إلى GPU أو Trainium في كتلة HyperPod الخاصة بك، مع مراقبة مشكلات الأجهزة مثل وحدات معالجة الرسومات غير المستجيبة أو عدادات أخطاء NVLink. عند اكتشاف خطأ، فإنه يضع علامة على العقدة على أنها غير صحية ويعيد تشغيلها تلقائيًا أو يستبدلها بعقدة سليمة، مما يحافظ على تشغيل مهامك دون الحاجة إلى تدخل يدوي. يتبع الوكيل أيضًا نهجًا منسقًا للتعامل مع حالات الفشل من خلال وظيفة الاستئناف التلقائي للوظيفة المتوفرة مع كتل Slurm. على سبيل المثال، ستستمر المهام مع تمكين الاستئناف التلقائي من آخر نقطة تفتيش محفوظة بمجرد استبدال العقد بالوكيل. هذا الاسترداد بدون استخدام اليدين، المتوفر بالفعل على كتل HyperPod المنسقة مع Amazon EKS، يمنح الآن كتل Slurm نفس البيئة المرنة، مما يساعد الفرق على تدريب النماذج الكبيرة لأسابيع دون انقطاع واستعادة الوقت والتكاليف التي كانت ستضيع بسبب حالات الفشل في منتصف التشغيل. بالإضافة إلى ذلك، يمكن للعملاء الآن أيضًا إعادة تشغيل العقد الخاصة بهم باستخدام أمر بسيط في حالة حدوث مشكلات متقطعة مثل مشكلات برنامج تشغيل GPU التي تتطلب إعادة الضبط. 

يتوفر عامل المراقبة الصحية لـ Slurm في جميع المناطق التي يتوفر فيها HyperPod بشكل عام. يتم تمكين الوكيل تلقائيًا في جميع كتل Slurm التي تم إنشاؤها حديثًا؛ لتمكينه على كتلة موجودة، ما عليك سوى الترقية إلى أحدث إصدار من HyperPod AMI عن طريق استدعاء UpdateClusterSoftware API. لمعرفة المزيد، تفضل بزيارة وثائق Amazon SageMaker HyperPod.