Klaster Amazon SageMaker HyperPod Slurm kini mendukung penentuan persyaratan kapasitas minimum dengan penyediaan berkelanjutan
Amazon SageMaker HyperPod kini mendukung persyaratan kapasitas minimum (MinCount) untuk klaster yang menggunakan orkestrasi Slurm dengan penyediaan berkelanjutan. Dengan penyediaan berkelanjutan, HyperPod menyediakan klaster dengan kapasitas parsial yang tersedia sehingga Anda dapat memulai pekerjaan AI/ML Anda dengan cepat, sambil terus menyediakan instans yang tersisa secara asinkron di latar belakang. Meskipun hal ini memberikan fleksibilitas, beberapa beban kerja pelatihan memerlukan jumlah simpul minimum yang terjamin sebelum dapat dimulai secara efektif. MinCount memungkinkan Anda menentukan jumlah minimum instans yang harus berhasil diprovisikan sebelum grup instans beralih ke status InService, memberi Anda kendali lebih besar atas kapan klaster Anda tersedia untuk penjadwalan pekerjaan.
Hal ini sangat berguna untuk beban kerja pelatihan terdistribusi yang menggunakan kerangka kerja seperti PyTorch FSDP, Megatron-LM, atau NVIDIA NeMo, di mana tugas pelatihan biasanya dikonfigurasi dengan jumlah simpul yang berpartisipasi tetap dan mungkin tidak dapat dimulai secara efisien atau benar dengan kapasitas klaster yang parsial. Hal ini juga bermanfaat bagi tim yang perlu menjamin jumlah GPU dasar untuk memenuhi SLA atau target efisiensi biaya sebelum melakukan pelatihan.
Anda dapat menentukan MinInstanceCount dalam permintaan API CreateCluster atau UpdateCluster untuk menetapkan ambang batas kapasitas minimum untuk grup instans. Grup instans tetap dalam status Membuat atau Memperbarui hingga ambang batas terpenuhi, kemudian beralih ke Dalam Layanan dan simpul menjadi tersedia untuk penjadwalan pekerjaan Slurm. HyperPod terus meluncurkan instans tambahan di luar MinCount hingga jumlah target tercapai. Jika MinCount tidak dapat dipenuhi dalam waktu 3 jam, sistem secara otomatis mengembalikan grup instans ke keadaan baik terakhir yang diketahui.
Klaster MinCount for Slurm dengan penyediaan berkelanjutan tersedia di semua AWS Region tempat Amazon SageMaker HyperPod didukung. Untuk memulai menentukan persyaratan kapasitas minimum untuk klaster Anda, lihat Persyaratan kapasitas minimum (MinCount) di dokumentasi Amazon SageMaker AI.