Amazon SageMaker HyperPod, Slurm kümeleri için durum izleme temsilcisi desteğini duyurdu
Amazon SageMaker HyperPod bugün Slurm kümeleri için durum izleme temsilcisinin genel kullanıma sunulduğunu duyurdu. SageMaker HyperPod, makine öğrenimi (ML) iş yüklerini çalıştırmak ve büyük dil modelleri (LLM'ler), difüzyon modelleri ve altyapı modelleri (FM'ler) gibi son teknoloji modelleri geliştirmek için esnek kümeler oluşturmanıza yardımcı olur. Durum izleme temsilcisi, uygulama davranışını veya performansını etkilemeden önemli alanlardaki sorunları tespit etmek için bulut sunucularının pasif arka plan durum denetimlerini gerçekleştirir, arızaları anında bildirir ve eğitim işlerinizin sorunsuz bir şekilde çalışmasını sağlamak için iyi durumda olmayan bulut sunucularını değiştirir.
Temsilci, HyperPod kümenizin tüm GPU veya Trainium tabanlı düğümlerinde sürekli olarak çalışır ve yanıt vermeyen GPU'lar veya NVLink hata sayaçları gibi donanım sorunlarını izler. Hata algılandığında, düğümü "iyi durumda değil" olarak işaretler ve otomatik olarak yeniden başlatır veya iyi durumdaki bir düğümle değiştirir. Böylece işleriniz manuel müdahaleye gerek kalmadan çalışmaya devam eder. Temsilci ayrıca Slurm kümelerinde bulunan iş otomatik sürdürme işleviyle arızaları ele almak için koordineli bir yaklaşım izler. Örneğin, otomatik sürdürme özelliği etkinleştirilmiş işler, düğümler temsilci tarafından değiştirildikten sonra son kaydedilen kontrol noktasından devam eder. Amazon EKS ile koordine edilen HyperPod kümelerinde halihazırda mevcut olan bu eller serbest kurtarma özelliği, artık Slurm kümelerine de aynı esnek ortamı sunarak ekiplerin haftalarca kesintisiz olarak büyük modellerin eğitimini gerçekleştirmesine ve aksi takdirde çalışmanın ortasında meydana gelen arızalar nedeniyle kaybedilecek zaman ve maliyetleri geri kazanmasına yardımcı olur. Ayrıca, müşteriler artık GPU sürücüsü sorunları gibi aralıklı sorunlar durumunda basit bir komutla düğümlerini yeniden başlatabilir.
Slurm durum izleme temsilcisi, HyperPod'un genel olarak kullanılabildiği tüm bölgelerde mevcuttur. Temsilci, yeni oluşturulan tüm Slurm kümelerinde otomatik olarak etkinleştirilir; mevcut bir kümede etkinleştirmek için, UpdateClusterSoftware API'sini çağırarak en son HyperPod AMI sürümüne yükseltmeniz yeterlidir. Daha fazla bilgi için Amazon SageMaker HyperPod belgelerini ziyaret edin.