SageMaker HyperPod теперь поддерживает групповое планирование распределенных учебных рабочих нагрузок

Проведено: 8 апр. 2026 г.

Управление задачами Amazon SageMaker HyperPod теперь поддерживает групповое планирование, которое проверяет готовность всех подов, необходимых для распределенной задачи обучения, до начала процесса. Администраторы могут настроить групповое планирование так, чтобы не тратить впустую вычислительные ресурсы на частичное выполнение задач и избегать взаимных блокировок от задач, ожидающих ресурсов.

Специалистам по обработке данных, выполняющим распределенные учебные задачи по искусственному интеллекту и машинному обучению в кластерах Amazon SageMaker HyperPod с помощью оркестратора EKS, требуется, чтобы несколько модулей работали вместе на разных узлах и обеспечивали связь друг с другом. Когда одни поды запускаются, а другие нет, задачи могут удерживать ресурсы без прогресса, блокировать другие рабочие нагрузки и увеличивать затраты. Групповое планирование решает эту проблему, отслеживая все поды в рабочей нагрузке и отзывая ее, если не все поды готовы в течение установленного времени. Отозванные рабочие нагрузки автоматически возвращаются в очередь, чтобы предотвратить простой системы. Администраторы могут настраивать параметры в консоли HyperPod, такие как время ожидания готовности подов, способы обработки сбоев узлов, необходимость допуска рабочих нагрузок по одной (для предотвращения взаимных блокировок в загруженных кластерах) и график выполнения повторных попыток.

В данный момент эта возможность доступна для кластеров Amazon SageMaker HyperPod, использующих оркестратор EKS, в следующих регионах AWS: Восток США (Огайо, Северная Вирджиния), Запад США (Орегон, Северная Калифорния), Европа (Ирландия, Испания, Лондон, Стокгольм, Франкфурт), Азиатско-Тихоокеанский регион (Джакарта, Мумбаи, Сидней, Сингапур, Токио) и Южная Америка (Сан-Паулу).

Дополнительные сведения см. на веб-странице SageMaker HyperPod и в документации по управлению задачами HyperPod.