Amazon SageMaker HyperPod için Yönetilen Katmanlı Kontrol İşaretleme Duyurusu

Yayınlanma Tarihi: 8 Eyl 2025

Bugün Amazon Web Service (AWS), model kurtarma süresini azaltmak ve eğitim ilerlemesindeki kayıpları en aza indirmek için tasarlanmış yeni bir özellik olan Amazon SageMaker HyperPod için yönetilen katmanlı kontrol işaretinin genel kullanılabilirliğini duyurdu. Yapay zeka eğitimi ölçeklendikçe, altyapı arızaları olasılığı artar, bu da verimli kontrol işaretlemeyi kritik hale getirir. Geleneksel kontrol işaretleme yöntemleri, özellikle büyük modeller için yavaş ve kaynak yoğun olabilir. SageMaker HyperPod'un yönetilen katmanlı kontrol işaretlemesi, bunu hızlı kurtarma için CPU belleğine sık sık kontrol noktalarını depolayarak çözer, hem de aynı zamanda uzun süreli dayanıklılık için Amazon S3'e periyodik olarak verileri kaydeder. Bu hibrit yaklaşım, eğitim kaybını en aza indirir ve bir başarısızlıktan sonra eğitime devam etme süresini önemli ölçüde azaltır.

Yönetilen katmanlı kontrol noktaları sayesinde kuruluşlar, büyük ölçekli kümelerde yüksek aktarım hızı ile güvenilir bir şekilde eğitim alabilir. Çözüm, müşterilerin hem bellek içi hem de kalıcı depolama katmanlarında kontrol noktası sıklığı ve saklama ilkelerini yapılandırmasına olanak tanır. Müşteriler bellekte sık depolama yaparak depolama maliyetlerini en aza indirirken, aynı zamanda depolama maliyetlerini de azaltabilir. PyTorch'un Dağıtılmış Kontrol Noktası (DCP) ile entegre olan müşteriler, hem kontrol noktalarını birkaç satır kodla kolayca uygulayabilir, hem de bellek içi depolamanın performans faydalarından yararlanabilir.

Bu özellik şu anda EKS düzenleyicisini kullanan SageMaker HyperPod kümeleri için kullanılabilir. Müşteriler, CreateCluster veya UpdateCluster API aracılığıyla bir HyperPod kümesi oluştururken veya güncellerken bir API parametresi belirterek yönetilen katmanlı kontrol işaretlemeyi etkinleştirebilir. Müşteriler sonra eğitim komut dosyalarında minimum kod değişikliği yaparak yönetilen katmanlı kontrol noktalarını uygulamak için sagemaker-checkpointing Python kütüphanesini kullanabilir.

Yönetilen katmanlı kontrol işaretleme, SageMaker HyperPod'un şu anda kullanılabildiği tüm bölgelerde kullanılabilir. Daha fazla bilgi edinmek için lütfen blog gönderisine ve belgelere bakın.