Amazon SageMaker HyperPod kini mendukung manajemen topologi Slurm otomatis
Amazon SageMaker HyperPod kini secara otomatis memilih dan terus memelihara konfigurasi topologi jaringan optimal untuk klaster Slurm berdasarkan tipe instans GPU dalam klaster. Topologi jaringan secara langsung memengaruhi kinerja pelatihan terdistribusi — ketika pekerjaan ditempatkan pada simpul yang secara topologis berdekatan, komunikasi GPU-ke-GPU lebih cepat, operasi kolektif NCCL lebih efisien, dan throughput pelatihan meningkat. HyperPod secara dinamis menyesuaikan topologi seiring evolusi klaster melalui operasi penskalaan dan penggantian simpul, sehingga penempatan pekerjaan tetap optimal sepanjang siklus hidup klaster tanpa memerlukan pembaruan manual pada file topologi atau konfigurasi ulang Slurm.
HyperPod memeriksa tipe instans di seluruh grup instans saat pembuatan klaster, mengidentifikasi karakteristik jaringan dan interkoneksi dari setiap tipe instans, dan secara otomatis memilih model topologi yang paling sesuai. HyperPod mendukung topologi pohon untuk tipe instans dengan interkoneksi hierarkis seperti ml.p5.48xlarge, ml.p5e.48xlarge, dan ml.p5en.48xlarge, serta topologi blok untuk tipe instans dengan konektivitas bandwidth tinggi yang seragam seperti ml.p6e-gb200.NVL72. Untuk klaster dengan tipe instans campuran, HyperPod memilih topologi yang kompatibel yang berfungsi di semua simpul. Saat klaster berubah karena penambahan skala, pengurangan skala, atau penggantian simpul, HyperPod secara otomatis memperbarui konfigurasi topologi tanpa intervensi manual, sehingga topologi selalu mencerminkan keadaan klaster yang sebenarnya.
Untuk memulai, buat klaster SageMaker HyperPod Slurm dengan tipe instans GPU yang didukung. Penjadwalan sadar topologi diaktifkan secara default dan tidak memerlukan konfigurasi apa pun.
Fitur ini tersedia di semua AWS Region di mana Amazon SageMaker HyperPod didukung. Untuk mempelajari lebih lanjut tentang penjadwalan sadar topologi, kunjungi dokumentasi Amazon SageMaker HyperPod.