Mengumumkan operator pelatihan Amazon SageMaker HyperPod

Dikirim di: 30 Jun 2025

Hari ini, kami mengumumkan ketersediaan umum operator pelatihan Amazon SageMaker HyperPod, ekstensi Kubernetes yang dibuat khusus untuk pelatihan model dasar yang tangguh di HyperPod.

Amazon SageMaker HyperPod memberdayakan pelanggan untuk mempercepat pengembangan model AI di ratusan atau ribuan GPU dengan ketahanan bawaan, mengurangi waktu pelatihan model hingga 40%. Seiring dengan berkembangnya klaster pelatihan, pemulihan dari gangguan pelatihan menjadi makin mengganggu. Pemulihan kegagalan secara tradisional mengharuskan pekerjaan dimulai ulang dari awal di semua simpul meskipun hanya satu proses pelatihan yang gagal, mengakibatkan peningkatan waktu henti dan biaya. Selain itu, mengidentifikasi dan menyelesaikan masalah pelatihan penting seperti GPU yang macet, throughput pelatihan yang rendah, dan ketidakstabilan numerik, biasanya memerlukan kode pemantauan khusus yang kompleks, sehingga memperpanjang jadwal pengembangan dan menunda waktu pemasaran.

Dengan operator pelatihan HyperPod, pelanggan dapat lebih meningkatkan ketahanan pelatihan untuk beban kerja Kubernetes. Dibandingkan memulai ulang pekerjaan sepenuhnya saat kegagalan terjadi, operator pelatihan HyperPod melakukan pemulihan bedah, hanya memulai ulang sumber daya pelatihan yang terpengaruh secara selektif agar pemulihan dari kesalahan lebih cepat. HyperPod juga memperkenalkan kemampuan pemantauan pekerjaan menggantung yang dapat disesuaikan untuk membantu mengatasi skenario pelatihan yang bermasalah, termasuk batch pelatihan yang terhenti, nilai kerugian nonnumerik, dan penurunan kinerja melalui konfigurasi YAML sederhana. Memulainya cukup mudah: buat klaster HyperPod, instal add-on operator pelatihan, tentukan kebijakan pemulihan khusus untuk pekerjaan menggantung jika ingin, dan luncurkan pelatihan.

Rilis ini tersedia secara umum di semua AWS Region tempat SageMaker HyperPod saat ini didukung.

Lihat dokumentasi untuk mempelajari lebih lanjut.