يوفر Amazon SageMaker HyperPod الآن إمكانية ملاحظة شاملة لمجموعات المثيلات المقيدة
يوفر Amazon SageMaker HyperPod الآن إمكانية ملاحظة شاملة لمجموعات المثيلات المقيدة (RIG)، مما يسمح للفرق التي تقوم بتدريب النماذج التأسيسية باستخدام Nova Forge من الحصول على رؤية عميقة لموارد الحوسبة وأعباء العمل التدريبية. تعمل هذه الإمكانية الجديدة على الحد من الجهد اليدوي لجمع المقاييس وربطها عبر مجموعة البنية الأساسية، مما يوفر عرضًا موحدًا لأداء وحدة معالجة الرسومات وصحة النظام ومعدل نقل البيانات على الشبكة وحالة كتلة Kubernetes من خلال لوحة معلومات Amazon Managed Grafana التي يتم تكوينها بشكل مسبق والمدعومة بخدمة Amazon Managed Service for Prometheus.
يمكنك الآن مراقبة استخدام وحدة معالجة الرسومات، وعرض نطاق NVLink الترددي، وضغط وحدة المعالجة المركزية، واستخدام FSx for Lustre، ودورة حياة pod من لوحة معلومات Grafana واحدة، مع مقاييس تم جمعها عبر أربعة مُصدّرين تغطي أداء وحدة معالجة الرسومات وصحة النظام على مستوى المضيف ونسيج الشبكة وحالة كائن Kubernetes. بالإضافة إلى ذلك، يتم توفير السجلات المنسقة تلقائيًا في لوحات المعلومات هذه، والتي تغطي تقدم التدريب وسجلات التدريب على مستوى الخطوات وأخطاء المسارات وعمليات تتبع Python، حتى تتمكن من تشخيص حالات فشل التدريب بسرعة. يتم تمكين HyperPod Observability لمجموعة المثيلات المقيدة تلقائيًا عند إنشاء كتلة جديدة باستخدام مجموعات المثيلات المقيدة، أو يمكن تمكينها للمجموعات الموجودة ببضع نقرات في وحدة تحكم إدارة كتلة HyperPod.
تتوفر إمكانية ملاحظة مجموعات المثيلات المقيدة من Amazon SageMaker HyperPod في جميع مناطق AWS التي يتوفر بها دعم SageMaker HyperPod RIG. لمعرفة مزيد من المعلومات، تفضل بالاطلاع على الوثائق.