SageMaker HyperPod теперь поддерживает совместное использование простаивающих ресурсов для динамической оптимизации загрузки кластеров
Управление задачами Amazon SageMaker HyperPod теперь поддерживает динамическое совместное использование ресурсов, что позволяет командам заимствовать незадействованные вычислительные мощности в кластерах HyperPod сверх гарантированных квот. Администраторы также могут установить лимиты заимствований для определенных типов ресурсов, таких как ускорители, виртуальные ЦП или память, чтобы обеспечить справедливое распределение ресурсов между командами.
Администраторы совместных вычислительных кластеров для рабочих нагрузок генеративного искусственного интеллекта часто сталкиваются с недостаточным использованием мощностей. Если специалисты по работе с данными не полностью используют выделенные квоты, дорогостоящие вычислительные инстансы простаивают. Совместное использование ресурсов в режиме простоя решает эту проблему, автоматически выявляя незадействованные ресурсы кластеров и предоставляя командам возможность заимствовать их по мере доступности. Управление задачами HyperPod отслеживает состояние кластеров и автоматически пересчитывает доступные для заимствования ресурсы при изменении инстансов и политик квот на вычислительные мощности, избавляя от необходимости ручной настройки. Соответствующие требованиям инстансы, которые готовы к использованию и доступны для планирования задач (в том числе инстансы с графическими процессорами, разбитыми на изолированные части), включаются в открытый для заимствования резерв незадействованных вычислительных мощностей. В дополнение к лимитам в процентном выражении администраторы также могут установить абсолютные значения лимитов на заимствование простаивающих мощностей. Это поможет максимально эффективно использовать ресурсы и осуществлять детальный контроль над их распределением между командами при простоях, при этом гарантируя каждой команде доступ к вычислительным мощностям в рамках ее квоты.
В данный момент эта возможность доступна для кластеров Amazon SageMaker HyperPod, использующих оркестратор EKS, в следующих регионах AWS: Восток США (Огайо, Северная Вирджиния), Запад США (Орегон, Северная Калифорния), Европа (Ирландия, Испания, Лондон, Стокгольм, Франкфурт), Азиатско-Тихоокеанский регион (Джакарта, Мумбаи, Сидней, Сингапур, Токио) и Южная Америка (Сан-Паулу).
Дополнительные сведения см. на веб-странице SageMaker HyperPod и в документации по управлению задачами HyperPod.