Amazon SageMaker HyperPod теперь поддерживает непрерывное выделение ресурсов для кластеров с оркестрацией Slurm
Поддержка непрерывного выделения ресурсов в Amazon SageMaker HyperPod теперь расширена на кластеры, использующие оркестратор Slurm, что обеспечит дополнительную гибкость и эффективность для корпоративных клиентов, использующих рабочие нагрузки ИИ и машинного обучения в большом масштабе. Клиентам, работающим с ИИ и машинным обучением в кластерах на основе Slurm, необходимо быстро запускать обучение, легко масштабировать ресурсы, проводить техническое обслуживание без прерывания работы и детально контролировать работу кластера. В прошлом, если не удавалось выделить все необходимые ресурсы для какой-то группы инстансов, то вся операция по созданию или масштабированию кластера завершалась сбоем, что приводило к задержкам и требовало ручного вмешательства.
Теперь же, имея возможность непрерывно выделять ресурсы для Slurm, SageMaker HyperPod автоматически выделяет недостающие ресурсы в фоновом режиме, а задачи обучения могут сразу же запускаться на доступных инстансах. Система использует приоритизированное выделение ресурсов, запуская сначала узел контроллера Slurm, а затем параллельно запуская узел входа и рабочие узлы, чтобы кластер как можно быстрее пришел в рабочее состояние. HyperPod автоматически повторяет попытки запуска нерабочих узлов в асинхронном режиме и по мере их доступности добавляет узлы в кластер Slurm, обеспечивая надежное достижение кластерами требуемого масштаба без необходимости ручного вмешательства. Появилась возможность выполнять одновременные операции масштабирования для разных групп инстансов без блокировки, поскольку нехватка ресурсов в одной группе больше не препятствует масштабированию других. Эти возможности помогают клиентам сократить время подготовки к обучению, максимально эффективно использовать ресурсы и сосредоточиться на инновациях, а не на управлении инфраструктурой.
Данная функция доступна для новых кластеров SageMaker HyperPod, использующих оркестратор Slurm. Можно включить непрерывное выделение ресурсов, установив для параметра NodeProvisioningMode значение Continuous («Непрерывно») при создании новых кластеров HyperPod с помощью API CreateCluster. Непрерывное выделение ресурсов также можно активировать при создании новых кластеров с помощью интерфейса командной строки AWS (AWS CLI) или консоли SageMaker AI.
Эта функция доступна во всех регионах AWS, в которых поддерживается Amazon SageMaker HyperPod. Подробнее о непрерывном выделении ресурсов для кластеров Slurm см. в Руководстве пользователя Amazon SageMaker HyperPod.