Amazon SageMaker HyperPod sekarang mendukung pemeriksaan kondisi mendalam sesuai permintaan

Dikirim di: 17 Apr 2026

Amazon SageMaker HyperPod sekarang mendukung pemeriksaan kondisi mendalam sesuai permintaan untuk Amazon EKS dan klaster yang diorkestrasi SLURM, memungkinkan Anda secara proaktif memverifikasi kondisi akselerator GPU pada instans yang sedang berjalan kapan saja. Klaster yang diorkestrasi HyperPod Slurm kini juga mendukung pemeriksaan kondisi mendalam selama penyediaan simpul, pada saat pembuatan klaster. Kemampuan ini mengatasi tantangan kritis di mana bahkan satu simpul yang tidak sehat dapat membuang waktu komputasi berjam-jam dan menunda beban kerja kritis.

Dengan pemeriksaan kondisi mendalam sesuai permintaan, Anda dapat menargetkan seluruh grup instans atau instans tertentu untuk menjalankan uji stres perangkat keras dan pengujian konektivitas yang komprehensif sebelum menyerahkan sumber daya komputasi ke pekerjaan. Kemajuan dan hasil terlihat di tingkat grup instans dan instans melalui konsol SageMaker dan API, memberikan visibilitas lengkap ke kondisi GPU, konektivitas jaringan, dan kinerja komunikasi multisimpul. Instans yang menjalani pemeriksaan secara otomatis diisolasi dari penjadwalan beban kerja dan dikembalikan ke layanan setelah lulus. Saat dipasangkan dengan kemampuan pemulihan simpul otomatis HyperPod, instans yang gagal secara otomatis di-boot ulang atau diganti guna memastikan kondisi klaster yang sehat.

Kemampuan ini tersedia di semua wilayah tempat Amazon SageMaker HyperPod tersedia. Untuk mempelajari lebih lanjut tentang pemeriksaan kondisi sesuai permintaan, lihat dokumentasi.