Amazon SageMaker HyperPod объявляет о поддержке агента мониторинга работоспособности для кластеров Slurm

Проведено: 15 сент. 2025 г.

Сегодня Amazon SageMaker HyperPod объявляет об общей доступности агента мониторинга работоспособности кластеров Slurm. SageMaker HyperPod помогает создать устойчивые кластеры для выполнения рабочих нагрузок машинного обучения (ML) и разработки современных моделей, таких как большие языковые модели (LLM), диффузионные и базовые модели (FM). Агент мониторинга работоспособности выполняет пассивные фоновые проверки работоспособности инстансов для выявления проблем в ключевых областях без влияния на поведение или производительность приложений, мгновенно обнаруживает сбои и заменяет неисправные инстансы, чтобы обеспечить бесперебойное выполнение задач обучения. 

Агент непрерывно работает на всех узлах на базе графических процессоров или микросхем Trainium в кластере HyperPod, отслеживая аппаратные проблемы, такие как неотвечающие графические процессоры или счетчики ошибок NVLink. При обнаружении отказа узел помечается как неработоспособный и автоматически перезагружается или заменяется работоспособным узлом, чтобы задачи продолжали выполняться без необходимости ручного вмешательства. Агент также применяет координированный подход к обработке сбоев с помощью функции автоматического возобновления задач, доступной в кластерах Slurm. Например, после того как агент заменит узлы, задачи с включенным автоматическим возобновлением будут продолжены с последней сохраненной контрольной точки. Функция автоматического восстановления, которая уже доступна в кластерах HyperPod, управляемых Amazon EKS, теперь предоставляет ту же отказоустойчивую среду для кластеров Slurm. Благодаря этому команды могут обучать большие модели неделями без перерывов и экономить время и средства, которые в противном случае были бы потеряны из-за промежуточных сбоев. Кроме того, теперь клиенты могут перезагружать свои узлы с помощью простой команды в случае эпизодических проблем, таких как проблемы с драйверами графического процессора, требующие перезагрузки. 

Агент мониторинга работоспособности для Slurm доступен во всех регионах, где общедоступен сервис HyperPod. Агент автоматически включается во всех новых кластерах Slurm. Чтобы включить его в существующем кластере, просто выполните обновление до последней версии AMI HyperPod с помощью вызова API UpdateClusterSoftware. Дополнительные сведения см. в документации по Amazon SageMaker HyperPod.