Amazon SageMaker HyperPod теперь поддерживает настройку Slurm через API

Проведено: 26 февр. 2026 г.

Amazon SageMaker HyperPod теперь поддерживает настройку Slurm на основе API, что позволяет определять конфигурацию топологии и общей файловой системы для Slurm непосредственно в запросах API «создать кластер» и «обновить кластер» или через Консоль AWS. SageMaker HyperPod помогает создать устойчивые кластеры для выполнения рабочих нагрузок машинного обучения (ML) и разработки современных моделей, таких как большие языковые модели (LLM), диффузионные и базовые модели (FM).

В рамках новой возможности теперь непосредственно в определении API кластера или в разделе расширенных настроек в Консоли AWS можно указать: типы узлов Slurm, включая управляющие (Controller), узлы входа (Login) и вычислительные (Compute), для групп инстансов кластера; привязку групп инстансов к разделам; параметры подключения файловых систем FSx для Lustre и FSx для OpenZFS к каждой группе инстансов. Когда вы изменяете привязку узлов к разделам непосредственно в файлах конфигурации Slurm для точной настройки распределения ресурсов кластера, могут возникать несоответствия между конфигурациями узлов в разделах Slurm и представлением в HyperPod. Новая стратегия SlurmConfigStrategy на уровне кластера позволяет разрешать такие несоответствия с помощью трех вариантов: Managed (Управление), Overwrite (Перезапись) и Merge (Объединение). Стратегия Managed позволяет полностью управлять привязкой групп инстансов к разделам через API или Консоль и автоматически выявляет несоответствие привязки разделов и узлов в ходе операций увеличения или уменьшения масштаба. При обнаружении несоответствий обновления кластера приостанавливаются до тех пор, пока вы не устраните расхождения одним из следующих способов: выберите стратегию Overwrite для принудительного применения настроек привязки, заданных через API; выберите стратегию Merge, чтобы сохранить ручные настройки; обновите параметры непосредственно в конфигурации Slurm, чтобы привести их в соответствие с HyperPod.

Настройка Slurm через API доступна во всех регионах AWS, где работает сервис SageMaker HyperPod. Начать работу с этой функцией можно через Консоль управления AWS, интерфейс командной строки AWS (AWS CLI), AWS CloudFormation или пакеты AWS SDK. Дополнительные сведения см. в разделах документации Amazon SageMaker HyperPod по созданию кластеров с помощью Консоли или CLI, а также в справочнике по API в разделах CreateCluster и UpdateCluster.