Amazon SageMaker HyperPod kini mendukung penyediaan berkelanjutan untuk klaster yang diatur oleh Slurm
Amazon SageMaker HyperPod kini memperluas dukungan penyediaan berkelanjutan ke klaster yang menggunakan orkestrator Slurm, memungkinkan fleksibilitas dan efisiensi yang lebih besar bagi pelanggan perusahaan yang menjalankan beban kerja pelatihan AI/ML skala besar. Pelanggan AI/ML yang menjalankan klaster berbasis Slurm perlu memulai pelatihan dengan cepat, melakukan penskalaan tanpa hambatan, melakukan pemeliharaan tanpa mengganggu operasional, dan memiliki visibilitas yang terperinci terhadap operasional klaster. Sebelumnya, jika ada grup instans yang tidak dapat sepenuhnya dipersiapkan, seluruh operasi pembuatan atau penskalaan klaster akan gagal dan dibatalkan, menyebabkan penundaan dan memerlukan intervensi manual.
Dengan penyediaan berkelanjutan untuk Slurm, SageMaker HyperPod secara otomatis menyediakan kapasitas yang tersisa di latar belakang sementara tugas pelatihan dapat segera dimulai pada instans yang tersedia. Sistem ini menggunakan penyediaan berbasis prioritas untuk mengaktifkan simpul pengontrol Slurm terlebih dahulu, diikuti oleh simpul login dan simpul pekerja secara paralel, sehingga klaster Anda mencapai kondisi operasional secepat mungkin. HyperPod mencoba kembali peluncuran simpul yang gagal secara asinkron dan menambahkan simpul ke klaster Slurm secara otomatis saat simpul tersebut tersedia, memastikan klaster mencapai skala yang diinginkan secara andal tanpa memerlukan intervensi manual. Kini Anda dapat melakukan operasi penskalaan konkuren dan non-pemblokiran di beberapa grup instans secara bersamaan — kekurangan kapasitas di satu grup instans tidak lagi menghambat penskalaan di grup instans lainnya. Kemampuan ini membantu pelanggan mengurangi waktu pelatihan, memaksimalkan pemanfaatan sumber daya, dan fokus pada inovasi daripada manajemen infrastruktur.
Fitur ini tersedia untuk klaster SageMaker HyperPod baru yang menggunakan orkestrator Slurm. Anda dapat mengaktifkan penyediaan berkelanjutan dengan menyetel parameter NodeProvisioningMode ke “Continuous” saat membuat klaster HyperPod baru menggunakan CreateCluster API. Penyediaan berkelanjutan juga dapat diaktifkan saat membuat klaster baru melalui AWS CLI dan konsol SageMaker AI.
Fitur ini tersedia di semua AWS Region di mana Amazon SageMaker HyperPod didukung. Untuk mempelajari lebih lanjut tentang penyediaan berkelanjutan untuk klaster Slurm, lihat Panduan Pengguna Amazon SageMaker HyperPod.