الإعلان عن نقاط التحقق المتدرجة المُدارة لخدمة Amazon SageMaker HyperPod
اليوم، تعلن Amazon Web Service (AWS) عن التوافر العام لنقاط التحقق المُدارة متعددة الطبقات لـ Amazon SageMaker HyperPod، وهي إمكانية جديدة مصممة لتقليل وقت استعادة النموذج وتقليل الخسارة في تقدم التدريب. مع توسع نطاق التدريب على الذكاء الاصطناعي، تزداد احتمالية فشل البنية التحتية، مما يجعل نقاط التحقق الفعالة أمرًا بالغ الأهمية. يمكن أن تكون طرق نقاط التحقق التقليدية بطيئة وتستهلك الكثير من الموارد، خاصةً بالنسبة للنماذج الكبيرة. تعالج نقاط التحقق المتدرجة المُدارة في SageMaker HyperPod هذه المشكلة باستخدام ذاكرة وحدة المعالجة المركزية (CPU) لتخزين نقاط التحقق المتكررة من أجل الاستعادة السريعة، مع الاحتفاظ بالبيانات بشكل دوري في خدمة Amazon S3 لضمان المتانة على المدى الطويل. يقلل هذا النهج المختلط من فقدان بيانات التدريب ويقلل بشكل كبير من الوقت اللازم لاستئناف التدريب بعد الفشل.
باستخدام نقاط التحقق المتدرجة المُدارة، يمكن للمؤسسات التدريب بشكل موثوق، مع إنتاجية عالية على المجموعات واسعة النطاق. يتيح الحل للعملاء تكوين تكرار نقاط التحقق وسياسات الاحتفاظ بها عبر كل من طبقات التخزين المؤقت في الذاكرة والتخزين الدائم. من خلال التخزين المتكرر في الذاكرة، يمكن للعملاء الاستعادة بسرعة مع تقليل تكاليف التخزين. بفضل التكامل مع ميزة " نقطة التحقق الموزعة (DCP)" الخاصة بـ PyTorch، يمكن للعملاء تطبيق نقاط التحقق بسهولة باستخدام بضعة أسطر من التعليمات البرمجية فقط، مع الاستفادة من مزايا الأداء للتخزين في الذاكرة.
هذه الميزة متاحة حاليًا لكُتل SageMaker HyperPod باستخدام منسِّق EKS. يمكن للعملاء تمكين نقاط التحقق المتدرجة المُدارة عن طريق تحديد معلمة واجهة برمجة تطبيقات API عند إنشاء أو تحديث مجموعة HyperPod عبر واجهة CreateCluster أو UpdateCluster. يمكن للعملاء بعد ذلك استخدام مكتبة sagemaker-checkpointing python لتطبيق نقاط التحقق المتدرجة المُدارة مع الحد الأدنى من التغييرات على نصوصهم البرمجية للتدريب.
تتوفر نقاط التحقق المتدرجة المُدارة في جميع المناطق التي تتوفر فيها حاليًا خدمة SageMaker HyperPod. لمعرفة المزيد، يرجى الرجوع إلى منشور المدونة والوثائق.