Amazon SageMaker HyperPod artık Slurm tarafından düzenlenen kümelerde sürekli tedarik özelliğini destekliyor
Amazon SageMaker HyperPod artık sürekli tedarik desteğini Slurm düzenleyicisini kullanan kümelere genişleterek büyük ölçekli yapay zeka/makine öğrenimi eğitim iş yükleri çalıştıran kurumsal müşteriler için daha fazla esneklik ve verimlilik sağlıyor. Slurm tabanlı kümeler çalıştıran Yapay Zeka/Makine Öğrenimi müşterilerinin eğitime hızlı bir şekilde başlaması, sorunsuz bir şekilde ölçeklendirme yapması, işlemleri kesintiye uğratmadan bakım gerçekleştirmesi ve küme işlemleri hakkında ayrıntılı bir görünürlüğe sahip olması gerekir. Önceden, herhangi bir bulut sunucusu grubu tam olarak tedarik edilemediğinde küme oluşturma veya ölçeklendirme işleminin tamamı başarısız olurdu veya geri alınırdı, bu da gecikmelere neden olurdu ve manuel müdahale gerektirirdi.
Slurm için sürekli tedarik sayesinde, SageMaker HyperPod arka planda kalan kapasiteyi otomatik olarak sağlarken eğitim işleri mevcut bulut sunucularında hemen başlayabilir. Sistem, önce Slurm denetleyicisi düğümünü, ardından oturum açma ve çalışan düğümlerini paralel olarak açmak için öncelik tabanlı tedariği kullanır ve böylece kümenizin mümkün olan en kısa sürede operasyonel bir duruma ulaşır. HyperPod, başarısız düğüm başlatmalarını eş zamansız olarak yeniden deneyip, kullanılabilir hale geldikçe otomatik olarak Slurm kümesine düğümleri ekleyerek kümelerin manuel müdahale gerektirmeden istenen ölçeğe güvenilir bir şekilde ulaşmasını sağlar. Artık birden çok bulut sunucusu grubunda eşzamanlı, engellemeyen ölçeklendirme işlemlerini aynı anda gerçekleştirebilirsiniz. Yani bir bulut sunucusu grubundaki kapasite sıkıntısı artık diğer gruplarda ölçeklendirmeyi engellemez. Bu özellikler, müşterilerin eğitim süresini azaltmasına, kaynak kullanımını en üst düzeye çıkarmasına ve altyapı yönetimi yerine yeniliklere odaklanmasına yardımcı olur.
Bu özellik, Slurm düzenleyicisini kullanan yeni SageMaker HyperPod kümelerinde kullanılabilir. CreateCluster API'sini kullanarak yeni HyperPod kümeleri oluştururken NodeProvisioningMode parametresini “Sürekli” olarak ayarlayarak sürekli sağlama özelliğini etkinleştirebilirsiniz. Sürekli tedarik, AWS CLI ve SageMaker AI konsolu aracılığıyla yeni kümeler oluştururken de etkinleştirilebilir.
Bu özellik, Amazon SageMaker HyperPod'un desteklendiği tüm AWS Bölgelerinde kullanılabilir. Slurm kümeleri için sürekli tedarik hakkında daha fazla bilgi edinmek için Amazon SageMaker HyperPod Kullanıcı Kılavuzu'na bakın.