Amazon SageMaker HyperPod artık Sınırlı Bulut Sunucusu Grupları için kapsamlı gözlemlenebilirlik sağlıyor
Amazon SageMaker HyperPod artık Kısıtlı Bulut Sunucusu Grupları (RIG) için kapsamlı gözlemlenebilirlik sunarak Nova Forge ile temel modelleri eğiten ekiplerin bilgi işlem kaynakları ve eğitim iş yükleri hakkında derinlemesine bir görünürlük elde etmelerini sağlıyor. Bu yeni özellik, altyapı yığını genelinde ölçümleri manuel olarak toplama ve birbiriyle ilişkilendirme ihtiyacını ortadan kaldırır. Prometheus İçin Amazon Yönetilen Hizmet tarafından desteklenen önceden yapılandırılmış bir Amazon Yönetilen Grafana panosu aracılığıyla GPU performansı, sistem durumu, ağ aktarım hızı ve Kubernetes kümesi durumuna ilişkin tek bir görünüm sunar.
Artık GPU kullanımı, NVLink bant genişliği, CPU yükü, Lustre için FSx kullanımı ve pod yaşam döngüsünü tek bir Grafana panosundan izleyebilirsiniz. Bu veriler, GPU performansı, ana sunucu düzeyinde sistem durumu, ağ yapısı ve Kubernetes nesnesi durumunu kapsayan dört veri aktarıcısından toplanır. Ayrıca bu panolarda tam geçiş aşamalarının ilerleyişini, adım düzeyinde eğitim günlüklerini, işlem hattı hatalarını ve Python hata izlemelerini içeren ve özenle derlenmiş günlükler otomatik olarak gösterilir. Böylece eğitim hatalarını hızlıca tespit edebilirsiniz. RIG'leri kullanarak yeni bir küme oluşturduğunuzda Sınırlı Bulut Sunucusu Grubu (RIG) için HyperPod Gözlemlenebilirliği otomatik olarak etkinleştirilir. Mevcut kümeler için ise HyperPod küme yönetim konsolunda birkaç tıklamayla etkinleştirilebilir.
Amazon SageMaker HyperPod RIG gözlemlenebilirliği, SageMaker HyperPod RIG'in desteklendiği tüm AWS bölgelerinde kullanılabilir. Daha fazla bilgi edinmek için belgeleri ziyaret edin.