Amazon SageMaker HyperPod kini mendukung konfigurasi Slurm berbasis API
Amazon SageMaker HyperPod kini mendukung konfigurasi Slurm berbasis API, memungkinkan Anda menentukan topologi Slurm dan konfigurasi sistem file bersama secara langsung di API buat dan perbarui klaster atau melalui Konsol AWS. SageMaker HyperPod membantu Anda menyediakan klaster tangguh untuk menjalankan beban kerja machine learning (ML) dan mengembangkan model canggih seperti model bahasa besar (LLM), model difusi, dan model fondasi (FM).
Dengan konfigurasi berbasis API baru ini, Anda kini dapat menentukan jenis simpul Slurm termasuk Controller, Login, dan Compute untuk grup instans klaster; pemetaan grup instans ke partisi; dan FSx untuk Lustre dan FSx untuk pemasangan sistem file OpenZFS per grup instans secara langsung di definisi API klaster atau melalui bagian konfigurasi lanjutan di Konsol AWS. Saat Anda memodifikasi pemetaan partisi-simpul secara langsung di file konfigurasi asli Slurm untuk menyempurnakan penetapan sumber daya klaster, konfigurasi partisi-simpul Slurm dapat bergeser dari tampilan HyperPod. SlurmConfigStrategy tingkat klaster baru membantu Anda mengelola pergeseran dengan tiga opsi: Terkelola, Timpa, dan Gabung. Strategi Terkelola memungkinkan Anda mengelola pemetaan grup instans ke partisi sepenuhnya melalui API atau Konsol, dan secara otomatis mendeteksi pergeseran dalam pemetaan partisi-ke-simpul selama operasi peningkatan atau penurunan skala. Saat pergeseran terdeteksi, pembaruan klaster dijeda sampai Anda menyelesaikannya dengan beralih ke strategi Timpa untuk memaksa pemetaan yang ditentukan API, strategi Gabung untuk mempertahankan penyesuaian manual, atau dengan memperbarui konfigurasi Slurm secara langsung agar selaras dengan HyperPod.
Konfigurasi Slurm berbasis API tersedia di semua AWS Region tempat SageMaker HyperPod tersedia. Untuk memulai, Anda dapat menggunakan Konsol Manajemen AWS, AWS CLI, AWS CloudFormation, atau AWS SDK. Untuk informasi selengkapnya, lihat dokumentasi Amazon SageMaker HyperPod untuk membuat menggunakan Konsol atau CLI, dan referensi API untuk Buat Klaster dan Perbarui Klaster.