Amazon SageMaker HyperPod ora supporta la configurazione Slurm basata su API

Inserito il: 26 feb 2026

Amazon SageMaker HyperPod ora supporta la configurazione Slurm basata su API, consentendo di definire la topologia Slurm e le configurazioni del file system condiviso direttamente nelle API di creazione e aggiornamento del cluster o tramite la Console AWS. SageMaker HyperPod consente di creare cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di modelli all'avanguardia come i modelli linguistici di grandi dimensioni (LLM), i modelli di diffusione e i modelli di fondazione (FM).

Con questa nuova configurazione basata su API, ora è possibile specificare i tipi di nodo Slurm, inclusi Controller, Login e Compute per i gruppi di istanze del cluster; le mappature dei gruppi di istanze verso le partizioni; e i montaggi dei file system FSx for Lustre e FSx for OpenZFS per gruppo di istanze direttamente nella definizione delle API del cluster o tramite la sezione di configurazione avanzata nella Console AWS. Quando modifichi le mappature tra partizioni e nodi direttamente nei file di configurazione nativi di Slurm per eseguire il fine-tuning dell’assegnazione delle risorse del cluster, le configurazioni delle partizioni e dei nodi di Slurm possono divergere dalla visualizzazione di HyperPod. Una nuova SlurmConfigStrategy a livello di cluster consente di gestire la divergenza con tre opzioni: Managed, Overwrite e Merge. La strategia Managed consente di gestire le mappature dei gruppi di istanze verso le partizioni completamente tramite l’API o la Console e rileva automaticamente la divergenza nelle mappature tra partizioni e nodi durante le operazioni di scale-up o scale-down. Quando viene rilevata una divergenza, gli aggiornamenti del cluster vengono sospesi finché non viene risolta passando alla strategia Overwrite per forzare le mappature definite dalle API, alla strategia Merge per preservare le personalizzazioni manuali, oppure aggiornando direttamente le configurazioni Slurm per allinearle a HyperPod.

La configurazione Slurm basata su API è disponibile in tutte le regioni AWS in cui è disponibile SageMaker HyperPod. Per iniziare, è possibile utilizzare la Console di gestione AWS, l’interfaccia della linea di comando (CLI) AWS, AWS CloudFormation o gli SDK AWS. Per ulteriori informazioni, consulta la documentazione di Amazon SageMaker HyperPod per la creazione di cluster tramite la console o la CLI e il riferimento API per CreateCluster e UpdateCluster.