تدعم Amazon SageMaker HyperPod الآن الإدارة المؤتمتة لطوبولوجيا Slurm
تقوم Amazon SageMaker HyperPod الآن تلقائيًا بتحديد التكوين الأمثل لطوبولوجيا الشبكة وتقوم بصيانته باستمرار لمجموعات Slurm استنادًا إلى أنواع مثيلات GPU في المجموعة. تؤثر طوبولوجيا الشبكة بشكل مباشر على أداء التدريب الموزع ، فعندما يتم وضع الوظائف على العقد القريبة طوبولوجيًا، يصبح التواصل بين وحدات GPU أسرع، وتكون عمليات NCCL الجماعية أكثر كفاءة، ويتحسن معدل نقل التدريب. تقوم HyperPod بتعديل الطوبولوجيا ديناميكيًا مع تطور المجموعة من خلال عمليات التوسع واستبدال العقد، لذلك يظل توزيع المهام محسنًا طوال دورة حياة المجموعة دون الحاجة إلى تحديثات يدوية لملفات الطوبولوجيا أو إعادة تكوين Slurm.
تقوم HyperPod بفحص أنواع المثيلات عبر جميع مجموعات المثيلات عند إنشاء المجموعة، ويحدد خصائص الشبكات والترابط البيني لكل نوع مثيل، ويحدد تلقائيًا نموذج الطوبولوجيا الأنسب. تدعم HyperPod الطوبولوجيا الشجرية لأنواع المثيلات ذات الترابط البيني الهرمي مثل ml.p5.48xlarge وml.p5e.48xlarge وml.p5en.48xlarge وطوبولوجيا الكتلة لأنواع المثيلات ذات الاتصال الموحد عالي النطاق مثل ml.p6e-GB200.nvl72. بالنسبة للمجموعات ذات أنواع المثيلات المختلطة، يقوم HyperPod بتحديد طوبولوجيا متوافقة تعمل عبر جميع العقد. ومع تغير المجموعة نتيجة التوسع أو التقلص أو أحداث استبدال العقدة، تقوم HyperPod تلقائيًا بتحديث تكوين الطوبولوجيا دون تدخل يدوي، وبذلك تعكس الطوبولوجيا دائمًا الحالة الفعلية للمجموعة.
للبدء، قم بإنشاء مجموعة SageMaker HyperPod Slurm باستخدام أنواع مثيلات GPU المدعومة. يتم تمكين الجدولة حسب أنسب ترتيب لطوبولوجيا الشبكة افتراضيًا ولا تتطلب أي تكوين.
تتوفر هذه الميزة في جميع مناطق AWS حيث يتم دعم Amazon SageMaker HyperPod. لمعرفة المزيد حول الجدولة حسب أنسب ترتيب لطوبولوجيا الشبكة، تفضل بزيارة وثائق Amazon SageMaker HyperPod