Mengumumkan Managed Tiered Checkpointing untuk Amazon SageMaker HyperPod

Dikirim di: 8 Sep 2025

Hari ini, Amazon Web Services (AWS) mengumumkan ketersediaan umum pemeriksaan berjenjang terkelola untuk Amazon SageMaker HyperPod, kemampuan baru yang dirancang untuk mengurangi waktu pemulihan model dan meminimalkan kerugian dalam kemajuan pelatihan. Seiring meningkatnya skala pelatihan AI, kemungkinan kegagalan infrastruktur meningkat, yang membuat pemeriksaan titik yang efisien menjadi sangat penting. Metode pemeriksaan tradisional dapat lambat dan membutuhkan banyak sumber daya, terutama untuk model besar. Titik pemeriksaan berjenjang yang dikelola SageMaker HyperPod mengatasi hal ini dengan menggunakan memori CPU untuk menyimpan titik pemeriksaan rutin guna pemulihan cepat, sekaligus menyimpan data secara berkala ke Amazon S3 demi ketahanan jangka panjang. Pendekatan hibrida ini meminimalkan kehilangan pelatihan dan secara signifikan mengurangi waktu untuk melanjutkan pelatihan setelah kegagalan.

Dengan titik pemeriksaan berjenjang yang terkelola, organisasi dapat berlatih dengan andal, dengan throughput tinggi pada klaster berskala besar. Solusinya memungkinkan pelanggan untuk mengonfigurasi frekuensi titik pemeriksaan dan kebijakan penyimpanan di seluruh tingkatan penyimpanan dalam memori dan penyimpanan persisten. Dengan menyimpan secara berkala dalam memori, pelanggan dapat memulihkannya dengan cepat sambil meminimalkan biaya penyimpanan. Terintegrasi dengan Distributed Checkpoint (DCP) PyTorch, pelanggan dapat dengan mudah mengimplementasikan checkpointing hanya dengan beberapa baris kode, sambil memperoleh manfaat kinerja dari penyimpanan dalam memori.

Fitur ini saat ini tersedia untuk klaster SageMaker HyperPod menggunakan orkestrator EKS. Pelanggan dapat mengaktifkan titik pemeriksaan berjenjang yang terkelola dengan menentukan parameter API saat membuat atau memperbarui klaster HyperPod melalui API CreateCluster atau UpdateCluster. Pelanggan kemudian dapat menggunakan pustaka python sagemaker-checkpointing untuk mengimplementasikan pemeriksaan titik berjenjang yang terkelola dengan perubahan kode minimal pada skrip pelatihan mereka.

Checkpointing berjenjang terkelola tersedia di semua region tempat SageMaker HyperPod saat ini tersedia. Untuk mempelajari lebih lanjut, silakan lihat postingan blog dan dokumentasi.