Amazon SageMaker HyperPod eğitim operatörü duyuruldu

Yayınlanma Tarihi: 30 Haz 2025

Bugün, HyperPod'da esnek temel modeli eğitimi için özel olarak oluşturulmuş bir Kubernetes uzantısı olan Amazon SageMaker HyperPod eğitim operatörünün genel kullanıma sunulduğunu duyuruyoruz.

Amazon SageMaker HyperPod, müşterilere yerleşik esneklik ile yüzlerce veya binlerce GPU'da yapay zeka modeli geliştirmeyi hızlandırarak model eğitim süresini %40'a kadar azaltır. Eğitim kümeleri genişledikçe, eğitim kesintilerinden sonra yaşanan iyileşme süreci giderek daha maliyetli hale geliyor. Arıza kurtarma işlemi geleneksel olarak, tek bir eğitim süreci bile başarısız olduğunda tüm düğümlerde tam bir iş yeniden başlatılmasını gerektirir, bu da kesinti süresinin uzamasına ve maliyetlerin artmasına neden olur. Ayrıca, durmuş GPU'lar, düşük eğitim verimi ve sayısal kararsızlıklar gibi kritik eğitim sorunlarını belirlemek ve çözmek tipik olarak karmaşık özel izleme kodu gerektirir, geliştirme zaman çizelgelerini daha da uzatır ve pazara sunma süresini geciktirir.

HyperPod eğitim operatörü ile müşteriler Kubernetes iş yükleri için eğitim direncini daha da artırabilir. Arızalar meydana geldiğinde tam bir iş yeniden başlatmak yerine, HyperPod eğitim operatörü, arızalardan daha hızlı kurtulmak için yalnızca etkilenen eğitim kaynaklarını seçici olarak yeniden başlatarak cerrahi kurtarma gerçekleştirir. Ayrıca, durmuş eğitim grupları, sayısal olmayan kayıp değerleri ve basit YAML yapılandırmaları yoluyla performans düşüşü gibi sorunlu eğitim senaryolarının üstesinden gelmeye yardımcı olmak için özelleştirilebilir bir askıya alma işi izleme özelliği sunar. Başlamak basittir: bir HyperPod kümesi oluşturun, eğitim operatörü eklentisini yükleyin, isteğe bağlı olarak askıya alınan işler için özel kurtarma ilkeleri tanımlayın ve eğitimi başlatın.

Bu sürüm, SageMaker HyperPod'un şu anda desteklendiği tüm AWS Bölgelerinde genel olarak kullanılabilir.

Daha fazla bilgi için belgelere bakın.