Amazon SageMaker HyperPod artık isteğe bağlı derin durum denetimlerini destekliyor
Amazon SageMaker HyperPod artık Amazon EKS ve SLURM tarafından düzenlenen kümeler için isteğe bağlı derin durum denetimlerini destekleyerek istediğiniz zaman çalışan bulut sunucularında GPU hızlandırıcı durumunu proaktif olarak doğrulamanıza olanak tanır. HyperPod Slurm tarafından düzenlenen kümeler artık küme oluşturma anındaki düğüm tedariki sırasında derin durum denetimlerini destekliyor. Bu özellik, tek bir düğümün saatlerce bilgi işlem süresini gereksizce harcayabileceği kritik iş yüklerindeki kritik bir zorluğu giderir.
İsteğe bağlı durum denetimleri sayesinde bir işe bilgi işlem kaynakları ayırmadan önce kapsamlı donanım stres testleri ve bağlantı testleri gerçekleştirmek için bütün bulut sunucusu gruplarını veya belirli bulut sunucularını seçebilirsiniz. İlerleme ve sonuçlar, SageMaker konsolu ve API'leri aracılığıyla hem bulut sunucusu grubu hem de bulut sunucusu düzeyinde görülebilir ve GPU durumu, ağ bağlantısı ve çok düğümlü iletişim performansı hakkında tam görünürlük sağlar. Denetimlerden geçen bulut sunucuları, iş yükü planlamasından otomatik olarak izole edilir ve geçtikten sonra hizmete geri döndürülür. HyperPod'un otomatik düğüm kurtarma özelliğiyle birlikte kullanıldığında, başarısız bulut sunucuları otomatik olarak yeniden başlatılır veya değiştirilir, böylece küme sağlığı sağlanır.
Bu özellik, Amazon SageMaker HyperPod'un kullanılabildiği tüm bölgelerde kullanılabilir. İsteğe bağlı durum denetimleri hakkında daha fazla bilgi edinmek için belgelere bakın.