الإعلان عن مشغل تدريب Amazon SageMaker HyperPod

:تاريخ النشر 30 يونيو 2025

نعلن اليوم عن التوفر العام لمشغل التدريب Amazon SageMaker HyperPod، وهو ملحق Kubernetes مصمم خصوصًا لتدريب نموذج الأساس المرن على HyperPod.

يُمكّن Amazon SageMaker HyperPod العملاء من تسريع تطوير نماذج الذكاء الاصطناعي عبر مئات أو آلاف وحدات معالجة الرسومات (GPU) مع المرونة المضمنة، ما يقلل وقت تدريب النموذج بنسبة تصل إلى 40%. مع توسع كتل التدريب، يصبح التعافي من انقطاعات التدريب أكثر تعقيدًا بشكل تدريجي. يتطلب التعافي من الأعطال عادةً إعادة تشغيل المهمة بالكامل عبر جميع العقد حتى في حالة فشل عملية تدريب واحدة، ما يؤدي إلى أوقات تعطل إضافية وزيادة التكاليف. فضلاً على ذلك، فإن تحديد مشكلات التدريب الحرجة وحلها، مثل: وحدات معالجة الرسومات (GPU) المتوقفة، وانخفاض معدل نقل التدريب، وعدم الاستقرار العددي، يتطلب عادةً رمز مراقبة مخصصًا معقدًا، وهذا يُطيل الجداول الزمنية للتطوير ويُؤخر الوقت اللازم للوصول إلى السوق.

مع مشغل تدريب HyperPod، يمكن للعملاء تعزيز مرونة التدريب لأعباء عمل Kubernetes بشكل أكبر. بدلاً من إعادة التشغيل الكامل للمهمة عند حدوث أعطال، يقوم مشغل تدريب HyperPod بإجراء عملية تعافٍ دقيقة، ويعيد تشغيل موارد التدريب المتأثرة بشكل انتقائي فقط للتعافي بشكل أسرع من الأعطال. كذلك يوفر إمكانية مراقبة المهام المعلقة القابلة للتخصيص للمساعدة على التغلب على سيناريوهات التدريب الإشكالية، التي تتضمن مجموعات التدريب المتوقفة وقيم الخسارة غير الرقمية وتدهور الأداء من خلال تكوينات YAML البسيطة. البدء بسيط: أنشئ كتلة HyperPod، وثبّت الوظيفة الإضافية لمُشغّل التدريب، وحدد اختياريًا سياسات استرداد مُخصصة للمهام المُعلّقة، ثم ابدأ التدريب.

يتوفر هذا الإصدار بشكل عام في جميع مناطق AWS التي يدعمها SageMaker HyperPod حاليًا.

راجع الوثائق لمعرفة المزيد.