Amazon SageMaker HyperPod теперь поддерживает автоматическое управление топологией Slurm

Проведено: 23 апр. 2026 г.

Amazon SageMaker HyperPod теперь автоматически выбирает и постоянно поддерживает оптимальную конфигурацию топологии сети для кластеров Slurm на основе типов инстансов графических процессоров в кластере. Топология сети напрямую влияет на производительность распределенного обучения: когда задания размещаются на топологически близких узлах, обмен данными между графическими процессорами происходит быстрее, коллективные операции NCCL более эффективны, а пропускная способность обучения повышается. HyperPod динамически адаптирует топологию по мере развития кластера за счет операций масштабирования и замены узлов, поэтому размещение заданий остается оптимизированным на протяжении всего жизненного цикла кластера без необходимости ручного обновления файлов топологии или реконфигурации Slurm.

HyperPod проверяет типы инстансов во всех группах инстансов при создании кластера, определяет сетевые характеристики и характеристики межсоединений каждого типа инстансов и автоматически выбирает наиболее подходящую топологическую модель. HyperPod поддерживает древовидную топологию для типов инстансов с иерархическими межсоединениями, таких как ml.p5.48xlarge, ml.p5e.48xlarge и ml.p5en.48xlarge, и блочную топологию для типов инстансов с одинаковым подключением и высокой пропускной способностью, таких как p6e-gb200.NVL72. Для кластеров со смешанными типами инстансов HyperPod выбирает совместимую топологию, которая работает на всех узлах. По мере изменения кластера в результате увеличения и уменьшения масштаба или замены узлов HyperPod автоматически обновляет конфигурацию топологии без ручного вмешательства, поэтому топология всегда отражает фактическое состояние кластера.

Для начала работы создайте кластер Slurm SageMaker HyperPod с поддерживаемыми типами инстансов графических процессоров. Планирование с учетом топологии включено по умолчанию и не требует настройки.

Эта функция доступна во всех регионах AWS, в которых поддерживается Amazon SageMaker HyperPod. Чтобы узнать больше о планировании с учетом топологии, ознакомьтесь с документацией по Amazon SageMaker HyperPod