تقديم مراقبة سلامة وحدة معالجة الرسومات والإصلاح التلقائي لمثيلات Amazon ECS المُدارة
تقدم Amazon Elastic Container Service (Amazon ECS) الآن ميزة مراقبة سلامة وحدة معالجة الرسومات NVIDIA ووظائف الإصلاح التلقائي لمثيلات Amazon ECS المُدارة. وتكتشف الإمكانية الجديدة تلقائيًا أعطال المكونات المادية المهمة لوحدة معالجة الرسومات NVIDIA وتستبدل المثيلات المعطلة، مما يساعد العملاء على تحسين مدى توافر وموثوقية أعباء العمل المعبأة في حاويات والتي يتم تسريعها بواسطة وحدة معالجة الرسومات لديهم.
يتطلب تشغيل أعباء العمل التي تم تسريعها بواسطة وحدة معالجة الرسومات، مثل استدلال GenAI، إدارة المكونات المادية المتخصصة للتخفيف من حالات الفشل وتقليل التعطيل. تقوم مثيلات Amazon ECS المُدارة الآن بمراقبة سلامة وحدة معالجة الرسومات باستمرار باستخدام مدير وحدة معالجة الرسومات لمراكز البيانات (DCGM) من NVIDIA واستبدال السعة الضعيفة بشكل استباقي عند حدوث أعطال خطيرة. يمكنك مراقبة سلامة وحدة معالجة الرسومات من خلال واجهة برمجة تطبيقات DescribeContainerInstances وتلقي الإشعارات من خلال Amazon EventBridge عندما تصبح المثيلات معطلة. بالنسبة لأعباء العمل التي تفضل فيها إدارة دورة حياة المثيل يدويًا، يمكنك إلغاء الاشتراك في الإصلاح التلقائي على مستوى مزود السعة والتعامل مع أحداث أخطاء وحدة معالجة الرسومات باستخدام منطق المعالجة الخاص بك.
يتم تمكين الإصلاح التلقائي السليم لوحدة معالجة الرسومات افتراضيًا على جميع مثيلات Amazon ECS المُدارة التي تعمل على أنواع مثيلات وحدة معالجة الرسومات من NVIDIA المدعومة دون أي تكلفة إضافية. تتوفر الإمكانية في جميع مناطق AWS التجارية. لمعرفة المزيد من المعلومات، راجع دليل مطور Amazon ECS.