Amazon SageMaker HyperPod kini mendukung pelatihan tcheckpintless

Dikirim di: 3 Des 2025

Amazon SageMaker HyperPod kini mendukung pelatihan checkpointless, sebuah kemampuan baru dalam pelatihan model dasar yang menghilangkan kebutuhan untuk melakukan restart job berbasis checkpoint saat terjadi kegagalan. Pelatihan checkpointless mempertahankan momentum pelatihan ke depan meskipun gagal, mengurangi waktu pemulihan dari jam ke menit. Pelatihan ini merupakan perubahan besar dari metode pemulihan tradisional berbasis checkpoint, di mana setiap kegagalan mengharuskan seluruh klaster pelatihan dijeda, masalah didiagnosis secara manual, dan pemulihan dilakukan dari checkpoint yang tersimpan, sebuah proses yang dapat membuat akselerator AI berbiaya tinggi menganggur selama berjam-jam dan membuang sumber daya komputasi.

Pelatihan checkpointless mengubah paradigma ini dengan menjaga status pelatihan model di seluruh klaster terdistribusi. Sistem ini dapat secara otomatis mengganti node pelatihan yang bermasalah secara waktu nyata dan menggunakan transfer status peer-to-peer dari akselerator yang sehat untuk pemulihan kegagalan. Dengan mengurangi dependensi checkpoint selama pemulihan, pelatihan checkpointless dapat membantu organisasi menghemat biaya akselerator AI yang tidak aktif dan mempercepat waktu. Bahkan pada skala yang lebih besar, pelatihan checkpointless di Amazon SageMaker HyperPod memungkinkan lebih dari 95% pelatihan yang baik pada ukuran klaster dengan ribuan akselerator AI.

Pelatihan checkpointless tentang SageMaker HyperPod tersedia di semua AWS Region yang menyediakan Amazon SageMaker HyperPod. Anda dapat mengaktifkan pelatihan checkpintless tanpa perubahan kode menggunakan resep HyperPod untuk model populer yang tersedia untuk umum seperti Llama dan GPT OSS. Untuk arsitektur model khusus, Anda dapat mengintegrasikan komponen pelatihan checkpointless dengan modifikasi minimal untuk alur kerja berbasis PyTorch, sehingga teknik ini tetap mudah digunakan oleh tim Anda tanpa memerlukan keahlian khusus dalam pelatihan terdistribusi.

Untuk memulai, kunjungi halaman produk Amazon SageMaker HyperPod dan lihat halaman GitHub pelatihan checkpointless untuk panduan implementasi.