يدعم Amazon SageMaker HyperPod الآن التوفير المستمر للكتل المنسقة بواسطة نظام Slurm
يعمل Amazon SageMaker HyperPod الآن على توسيع دعم التوفير المستمر للكتل باستخدام القائم على التكوين والتنسيق والإدارة المؤتمتة لدى نظام Slurm، مما يتيح قدرًا أكبر من المرونة والكفاءة لعملاء المؤسسات الذين يديرون أعباء عمل تدريبية واسعة النطاق على الذكاء الاصطناعي/التعلم الآلي (AI/ML). يحتاج عملاء الذكاء الاصطناعي/التعلم الآلي (AI/ML) الذين يديرون الكتل القائمة على نظام Slurm إلى بدء التدريب بسرعة، وتوسيع النطاق بسلاسة، وإجراء الصيانة دون تعطيل العمليات، والحصول على رؤية دقيقة لعمليات الكُتل. في السابق، إذا تعذر توفير أي مجموعة مثيلات بشكل كامل، فشلت عملية إنشاء الكتلة أو توسيع نطاقها بالكامل وتم التراجع عنها، مما تسبب في حدوث تأخيرات وتطلب تدخلًا يدويًا.
من خلال التوفير المستمر لنظام Slurm، يوفر SageMaker HyperPod تلقائيًا السعة المتبقية في الخلفية بينما يمكن بدء مهام التدريب فورًا على المثيلات المتاحة. يستخدم النظام التوفير المستند إلى الأولوية لإظهار عقدة وحدة تحكم Slurm أولًا، تليها عقدتي تسجيل الدخول والعامل بالتوازي، حتى تصل الكتلة لديك إلى حالة تشغيلية في أسرع وقت ممكن. يقوم HyperPod بإعادة محاولة تشغيل العقدة الفاشلة بشكل غير متزامن وإضافة العقد إلى كتلة Slurm تلقائيًا عندما تصبح متاحة، مما يضمن وصول الكتل بشكل موثوق إلى النطاق المطلوب لها دون الحاجة إلى تدخل يدوي. يمكنك الآن إجراء عمليات توسيع نطاق متزامنة وغير حاصرة عبر مجموعات مثيلات متعددة في وقت واحد — حيث لم يعد نقص السعة في مجموعة مثيلات واحدة يعيق عمليات توسيع النطاق في المجموعات الأخرى. وتساعد هذه الإمكانيات العملاء على تقليل وقت التدريب وزيادة استخدام الموارد والتركيز على الابتكار بدلًا من إدارة البنية التحتية.
تتوفر هذه الميزة لكتل SageMaker HyperPod الجديدة باستخدام القائم على التكوين والتنسيق والإدارة المؤتمتة لدى Slurm. يمكنك تمكين التوفير المستمر عن طريق ضبط المعلمة NodeProvisioningMode عند "مستمر" عند إنشاء كُتل HyperPod جديدة باستخدام واجهة برمجة تطبيقات CreateCluster. يمكن أيضًا تمكين التوفير المستمر عند إنشاء كتل جديدة من خلال AWS CLI ووحدة تحكم SageMaker AI.
تتوفر هذه الميزة في جميع مناطق AWS حيث يتم دعم Amazon SageMaker HyperPod. لمعرفة المزيد حول التوفير المستمر لكتل Slurm، اطّلع على دليل مستخدم Amazon SageMaker HyperPod.