Анонс: мониторинг состояния графического процессора и автоматическое восстановление управляемых инстансов Amazon ECS
Amazon Elastic Container Service (Amazon ECS) теперь поддерживает мониторинг состояния графических процессоров NVIDIA и автоматическое восстановления управляемых инстансов Amazon ECS. Новая возможность автоматически обнаруживает критические аппаратные сбои графических процессоров NVIDIA и заменяет поврежденные инстансы, что повышает доступность и надежность контейнерных рабочих нагрузок с аппаратным ускорением графики.
Для выполнения рабочих нагрузок с аппаратным ускорением графики, таких как вывод генеративного искусственного интеллекта, требуется специализированное управление оборудованием, чтобы предотвращать сбои и сводить нарушения работы к минимуму. Управляемые инстансы Amazon ECS теперь непрерывно отслеживают состояние графического процессора с помощью NVIDIA Data Center GPU Manager (DCGM) и активно заменяют поврежденные ресурсы в случае критических сбоев. Можно отслеживать состояние графического процессора с помощью API DescribeContainerInstances и получать уведомления о неисправностях инстансов через Amazon EventBridge. Если вы предпочитаете вручную управлять жизненным циклом инстансов для определенных рабочих нагрузок, то можете отказаться от автоматического ремонта на уровне поставщика ресурсов и обрабатывать события, связанные с ошибками графического процессора, используя собственную логику исправления.
Автоматическое восстановление работоспособности графического процессора включено по умолчанию и без дополнительной платы для всех управляемых инстансов Amazon ECS, работающих на поддерживаемых типах инстансов графических процессоров NVIDIA. Эта возможность доступна во всех коммерческих регионах AWS. Дополнительную информацию см. вРуководстве по Amazon ECS для разработчиков.