Amazon SageMaker HyperPod теперь поддерживает обучение без контрольных точек
Amazon SageMaker HyperPod теперь поддерживает обучение без контрольных точек – новую возможность обучения базовых моделей, которая устраняет необходимость перезапуска в контрольных точках на уровне задач для восстановления после сбоя. Обучение без контрольных точек сохраняет динамику тренировок, несмотря на неудачи, что сокращает время восстановления с нескольких часов до минут. Такой подход кардинально отличается от традиционного восстановления на основе контрольных точек, когда при сбоях необходимо приостановить работу всего кластера обучения, диагностировать проблемы вручную и восстановить данные из сохраненных контрольных точек. Это может привести к многочасовому простою дорогостоящих ускорителей искусственного интеллекта и напрасной трате вычислительных ресурсов организации.
При обучении без контрольных точек состояние обучения модели сохраняется в распределенном кластере, происходит быстрая автоматическая замена сбойных узлов обучения и передача состояния от исправных ускорителей по одноранговой сети для восстановления после сбоев. Это устраняет зависимость от контрольных точек, ускоряет работу и сокращает затраты на простой ускорителей искусственного интеллекта. Даже в больших масштабах полезная пропускная способность при обучении без контрольных точек в Amazon SageMaker HyperPod превышает 95 % в кластерах с тысячами ускорителей искусственного интеллекта.
Обучение без контрольных точек доступно во всех регионах AWS, где в настоящее время доступен сервис Amazon SageMaker HyperPod. Его можно включить без изменений кода, используя рецепты HyperPod для популярных общедоступных моделей, таких как Llama и GPT OSS. Для архитектур специализированных моделей компоненты обучения без контрольных точек можно интегрировать в рабочие процессы на основе PyTorch с минимальными изменениями, что делает их доступными для команд с любым уровнем опыта распределенного обучения.
Чтобы начать работу и получить рекомендации по внедрению, посетите страницу продукта Amazon SageMaker HyperPod и страницу обучения без контрольных точек на GitHub.