Amazon SageMaker HyperPod объявляет о поддержке агента мониторинга работоспособности для кластеров Slurm
Сегодня Amazon SageMaker HyperPod объявляет об общей доступности агента мониторинга работоспособности кластеров Slurm. SageMaker HyperPod помогает создать устойчивые кластеры для выполнения рабочих нагрузок машинного обучения (ML) и разработки современных моделей, таких как большие языковые модели (LLM), диффузионные и базовые модели (FM). Агент мониторинга работоспособности выполняет пассивные фоновые проверки работоспособности инстансов для выявления проблем в ключевых областях без влияния на поведение или производительность приложений, мгновенно обнаруживает сбои и заменяет неисправные инстансы, чтобы обеспечить бесперебойное выполнение задач обучения.
Агент непрерывно работает на всех узлах на базе графических процессоров или микросхем Trainium в кластере HyperPod, отслеживая аппаратные проблемы, такие как неотвечающие графические процессоры или счетчики ошибок NVLink. При обнаружении отказа узел помечается как неработоспособный и автоматически перезагружается или заменяется работоспособным узлом, чтобы задачи продолжали выполняться без необходимости ручного вмешательства. Агент также применяет координированный подход к обработке сбоев с помощью функции автоматического возобновления задач, доступной в кластерах Slurm. Например, после того как агент заменит узлы, задачи с включенным автоматическим возобновлением будут продолжены с последней сохраненной контрольной точки. Функция автоматического восстановления, которая уже доступна в кластерах HyperPod, управляемых Amazon EKS, теперь предоставляет ту же отказоустойчивую среду для кластеров Slurm. Благодаря этому команды могут обучать большие модели неделями без перерывов и экономить время и средства, которые в противном случае были бы потеряны из-за промежуточных сбоев. Кроме того, теперь клиенты могут перезагружать свои узлы с помощью простой команды в случае эпизодических проблем, таких как проблемы с драйверами графического процессора, требующие перезагрузки.
Агент мониторинга работоспособности для Slurm доступен во всех регионах, где общедоступен сервис HyperPod. Агент автоматически включается во всех новых кластерах Slurm. Чтобы включить его в существующем кластере, просто выполните обновление до последней версии AMI HyperPod с помощью вызова API UpdateClusterSoftware. Дополнительные сведения см. в документации по Amazon SageMaker HyperPod.