Кластеры Amazon SageMaker HyperPod Slurm теперь позволяют задавать минимальные требования к ресурсам при их непрерывном выделении
При работе с кластерами Amazon SageMaker HyperPod, использующими оркестрацию Slurm и непрерывное выделение ресурсов, теперь можно указывать минимальные требования к ресурсам (minCount). Непрерывное выделение ресурсов в инфраструктуре HyperPod позволяет предоставлять кластерам ограниченный объем ресурсов. Благодаря этому можно быстро запускать задания для искусственного интеллекта и машинного обучения, продолжая при этом выделять оставшиеся инстансы асинхронно в фоновом режиме. Хотя эта схема обеспечивает гибкость, для эффективного запуска некоторых учебных рабочих нагрузок требуется гарантированное минимальное количество узлов. Функция minCount позволяет указать минимальное количество экземпляров, которые необходимо успешно предоставить для того, чтобы группа инстансов получила статус InService. Благодаря этому можно более точно контролировать доступность кластера для планирования заданий.
Это особенно полезно при работе с распределенными учебными рабочими нагрузками, использующими такие платформы, как PyTorch FSDP, Megatron-LM или NVIDIA NeMo: в этом случае задачи обучения обычно настраиваются с фиксированным количеством участвующих узлов, а их запуск может быть выполнен неэффективно или некорректно, если предоставлены только частичные ресурсы кластера. Также новая функция принесет пользу командам, которым требуется гарантированное базовое количество графических процессоров для достижения целей, соответствующих Соглашению об уровне обслуживания или экономической эффективности, а для запуска обучения может выделить только свободные ресурсы.
Вы можете указать свойство minInstanceCount в запросе API CreateCluster или UpdateCluster, чтобы установить минимальное пороговое значение ресурсов для группы инстансов. У группы инстансов будет оставаться статус «Создание» или «Обновление» вплоть до достижения порогового значения, а затем она получит статус InService, и узлы станут доступными для планирования заданий Slurm. HyperPod продолжит запускать дополнительные инстансы (помимо minCount) до тех пор, пока не будет достигнуто целевое количество инстансов. Если уровня, определенного свойством minCount, не получится достигнуть в течение 3 часов, система автоматически вернет группу инстансов в последнее заведомо работоспособное состояние.
Кластеры minCount для Slurm с непрерывным выделением ресурсов доступны во всех регионах AWS, где поддерживается Amazon SageMaker HyperPod. Прежде чем настроить минимальные требования к ресурсам для кластера, изучите раздел Минимальные требования к ресурсам (minCount) в документации по Amazon SageMaker AI.