Анонс эластичного обучения в Amazon SageMaker HyperPod
Amazon SageMaker HyperPod теперь поддерживает эластичное обучение. Это ускоряет обучение базовых моделей путем автоматического масштабирования рабочих нагрузок обучения в зависимости от их приоритета и доступности ресурсов. Такой подход кардинально отличается от обучения с фиксированным набором ресурсов и позволяет сэкономить часы инженерного времени, затрачиваемого на перенастройку задач обучения в зависимости от доступности вычислительных ресурсов.
Любое изменение доступности вычислительных ресурсов ранее требовало ручной остановки обучения, изменения параметров обучения и повторного запуска задач. Этот процесс требует опыта распределенного обучения и приводит к дорогостоящим простоям ускорителей искусственного интеллекта. Эластичное обучение автоматически расширяет задачи обучения с использованием простаивающих ускорителей искусственного интеллекта и плавно сокращает их, когда требуют ресурсов более приоритетные рабочие нагрузки, – и все это без полной остановки обучения.
Непрерывное использование вычислительных ресурсов без необходимости перенастройки вручную экономит время на управлении инфраструктурой, сокращает затраты за счет максимального использования кластера и ускоряет вывод продукции на рынок. Обучение можно начать сразу же с минимумом ресурсов и наращивать по мере появления возможностей.
Эластичное обучение доступно во всех регионах, где в настоящее время доступен сервис Amazon SageMaker HyperPod. Его можно включить без изменений кода, используя рецепты HyperPod для общедоступных моделей, например Llama и GPT OSS. Для архитектур специализированных моделей клиенты могут интегрировать возможности эластичного обучения с помощью легких обновлений конфигурации и минимальных изменений кода, что делает их доступными для команд без опыта работы с распределенными системами.
Чтобы начать работу и получить рекомендации по внедрению, посетите страницу продукта Amazon SageMaker HyperPod и изучите документацию по эластичному обучению.