Amazon SageMaker HyperPod mengumumkan dukungan agen pemantauan kondisi untuk klaster Slurm

Dikirim di: 15 Sep 2025

Hari ini, Amazon SageMaker HyperPod mengumumkan ketersediaan umum agen pemantauan kondisi untuk klaster Slurm. SageMaker HyperPod membantu Anda menyediakan klaster tangguh untuk menjalankan beban kerja machine learning (ML) dan mengembangkan model canggih seperti model bahasa besar (LLM), model difusi, dan model fondasi (FM). Agen pemantauan kondisi melakukan pemeriksaan kondisi latar belakang instans secara pasif untuk mengidentifikasi masalah di area utama tanpa memengaruhi perilaku atau kinerja aplikasi, menandai kegagalan secara instan, dan mengganti instans yang tidak sehat untuk menjaga agar tugas pelatihan Anda tetap berfungsi dengan lancar. 

Agen berjalan terus-menerus di semua simpul berbasis GPU atau Trainium di klaster HyperPod Anda, mendeteksi masalah pada perangkat keras seperti GPU yang tidak responsif atau penghitung kesalahan NVLink. Ketika kesalahan terdeteksi, agen menandai simpul sebagai simpul yang kondisinya tidak baik dan secara otomatis melakukan boot ulang atau menggantinya dengan simpul yang sehat, sehingga pekerjaan Anda tetap berfungsi tanpa memerlukan intervensi manual. Agen juga mengikuti pendekatan terkoordinasi untuk menangani kegagalan dengan fungsionalitas melanjutkan pekerjaan secara otomatis yang tersedia dengan klaster Slurm. Misalnya, pekerjaan dengan fungsionalitas melanjutkan secara otomatis yang diaktifkan akan dilanjutkan dari checkpoint terakhir yang disimpan setelah simpul diganti oleh agen. Pemulihan otomatis ini, yang sudah tersedia di klaster HyperPod yang diatur dengan Amazon EKS, sekarang memberi klaster Slurm lingkungan tangguh yang sama, membantu tim melatih model besar selama berminggu-minggu tanpa gangguan, serta mengamankan potensi hilangnya waktu dan biaya karena adanya kegagalan di tengah-tengah pekerjaan. Selain itu, pelanggan sekarang juga dapat melakukan boot ulang pada simpul menggunakan perintah sederhana, jika terjadi masalah intermiten seperti masalah pada driver GPU yang perlu diatur ulang. 

Agen pemeriksaan kondisi untuk Slurm tersedia di semua region tempat HyperPod tersedia secara umum. Agen diaktifkan secara otomatis pada semua klaster Slurm yang baru dibuat; untuk mengaktifkannya di klaster yang ada, cukup tingkatkan ke HyperPod AMI terbaru dengan memanggil API UpdateClusterSoftware. Untuk mempelajari selengkapnya, kunjungi dokumentasi Amazon SageMaker HyperPod.