تدعم الآن ميزة Amazon SageMaker HyperPod إعادة تشغيل العقدة البرمجية واستبدالها
تعلن Amazon SageMaker HyperPod اليوم عن التوافر العام لواجهات API الجديدة التي تمكّن إعادة التشغيل البرمجي واستبدال عقد الكتل لـ SageMaker HyperPod. يساعدك SageMaker HyperPod على توفير مجموعات مرنة لتشغيل أعباء عمل التعلم الآلي (ML) وتطوير أحدث النماذج مثل نماذج اللغة الكبير (LLMs) ونماذج الانتشار ونماذج التأسيس (FMs). تمكّن واجهات API BatchRebootClusterNodes وBatchReplaceClusterNodes الجديدة العملاء من إعادة تشغيل عقد الكتل غير المستجيبة أو المتدهورة أو استبدالها برمجيًا، مما يوفر نهجًا متسقًا لا يعتمد على القائم على التكوين والتنسيق والإدارة المؤتمتة لعمليات استرداد العقدة.
تعمل واجهات API الجديدة على تحسين قدرات إدارة العقدة لكل من كتل Slurm وEKS المنسقة التي تكمل عمليات إعادة تشغيل العقدة الحالية وعمليات سير العمل البديلة. تظل الأساليب الحالية الخاصة بالقائم على التكوين والتنسيق والإدارة المؤتمتة، مثل تسميات Kubernetes لكتل EKS وأوامر Slurm لكتل Slurm، متاحة جنبًا إلى جنب مع القدرات البرمجية التي تم تقديمها حديثًا لإعادة التشغيل واستبدال العمليات من خلال واجهات API المصممة لهذا الغرض. عندما تصبح عقد الكتل غير مستجيبة بسبب مشكلات مثل تجاوزات الذاكرة أو تدهور الأجهزة، قد تكون عمليات الاسترداد مثل إعادة تشغيل العقدة واستبدالها ضرورية ويمكن البدء من خلال واجهات API الجديدة هذه. تعتبر هذه الإمكانات ذات قيمة خاصة عند تشغيل أعباء العمل الحساسة للوقت. على سبيل المثال، عندما تصبح وحدة تحكم Slurm أو تسجيل الدخول أو عقدة الحوسبة غير مستجيبة، يمكن للمسؤولين تشغيل عملية إعادة التشغيل باستخدام API ومراقبة تقدمها لإعادة العقد إلى حالة التشغيل. وبالمثل، يمكن لمسؤولي كتلة EKS استبدال عقد العاملين المتدهورة برمجيًا. تدعم كل API عمليات مجمعة تصل إلى 25 حالة، مما يمكّن الإدارة الفعالة لسيناريوهات الاسترداد واسعة النطاق.
يتم دعم واجهات API الخاصة بإعادة التشغيل والاستبدال حاليًا في ثلاث مناطق AWS حيث يتوفر SageMaker HyperPod: شرق الولايات المتحدة (أوهايو) وآسيا والمحيط الهادئ (مومباي) وآسيا والمحيط الهادئ (طوكيو). يمكن الوصول إلى واجهات API من خلال AWS CLI أو SDK أو استدعاءات API. للحصول على مزيد من المعلومات، اطلع على وثائق Amazon SageMaker HyperPod لـ BatchRebootClusterNodes وBatchReplaceClusterNodes.