Amazon SageMaker HyperPod Slurm kümeleri artık sürekli tedarik ile minimum kapasite gereksinimlerini belirlemeyi destekliyor

Yayınlanma Tarihi: 27 May 2026

Amazon SageMaker HyperPod artık sürekli tedarik ile Slurm düzenlemesini kullanan kümeler için minimum kapasite gereksinimlerini (MinCount) destekliyor. Sürekli tedarik ile HyperPod, kullanılabilir kısmi kapasiteye sahip olan kümeler tedarik eder, böylece yapay zeka/makine öğrenimi işlerinizi hızlı bir şekilde başlatabilir ve kalan bulut sunucularını arka planda zaman uyumsuz olarak tedarik etmeye devam edebilirsiniz. Bu size esneklik sağlar, ancak bazı eğitim iş yüklerinin etkili bir şekilde başlatılabilmesi için garantili minimum sayıda düğüme ihtiyacı olur. MinCount, bir bulut sunucusu grubunun InService durumuna geçmeden önce başarıyla tedarik edilmesi gereken minimum bulut sunucusu sayısını belirtmenize olanak tanır ve kümenizin iş planlaması için kullanılabilir hale geleceği zaman konusunda size daha fazla kontrol sağlar.

Bu, normalde sabit sayıda katılımcı düğümleriyle yapılandırılan ve kısmi küme kapasitesiyle etkili veya doğru bir şekilde başlatılmakta sorun yaşayabilen eğitim işlerinde PyTorch FSDP, Megatron-LM veya NVIDIA NeMo çerçevelerini kullanan dağıtılmış eğitim iş yükleri için kullanışlıdır. Ayrıca, bir eğitim çalıştırmasına başlamadan önce SLA veya maliyet verimliliği hedeflerini karşılamak için temel bir GPU sayısı garanti etmesi gereken ekiplere de fayda sağlar.

Bir bulut sunucusu grubuna minimum kapasite eşiği ayarlamak için CreateCluster veya UpdateCluster API isteğinde MinInstanceCount belirtebilirsiniz. Bulut sunucusu grubu, eşik karşılanana kadar Oluşturuluyor veya Güncelleniyor durumunda kalır, eşik karşılandığında durum InService'e geçer ve düğümler Slurm iş zamanlaması için kullanılabilir hale gelir. HyperPod, hedef sayıya ulaşılana kadar MinCount'un ötesinde ek bulut sunucuları başlatmaya devam eder. MinCount 3 saat içinde tatmin edilemezse, sistem bulut sunucusu grubunu otomatik olarak bilinen son iyi durumuna geri döndürür.

Sürekli tedarike sahip Slurm kümeleri için MinCount, Amazon SageMaker HyperPod'un desteklendiği tüm AWS Bölgelerinde kullanılabilir. Kümenizin minimum kapasite gereksinimlerini belirlemeye başlamak için Amazon SageMaker AI belgelerindeki Minimum kapasite gereksinimleri (MinCount) bölümüne bakın.