Altyapı modeli geliştirmeyi ölçeklendirmek için Amazon SageMaker HyperPod'da Amazon EKS desteği

Yayınlanma Tarihi: 10 Eyl 2024

Müşterilerin Kubernetes iş yüklerini, modelleri eğitme süresini %40'a kadar kısaltan ve altyapı modeli (FM) geliştirme için amaca yönelik oluşturulmuş bir altyapı olan SageMaker HyperPod üzerinde çalıştırmalarına ve yönetmelerine olanak tanıyan Amazon EKS desteğinin SageMaker HyperPod'da genel kullanıma sunulduğunu duyurmaktan heyecan duyuyoruz.

Birçok müşteri taşınabilirliği, ölçeklenebilirliği ve zengin araç ekosistemi nedeniyle ML iş akışlarını düzenlemek için Kubernetes'i kullanıyor. Bu müşteriler Kubernetes'in tanıdık arayüzünü kullanmaya devam etmek, ancak donanım hatalarını yönetmenin de otomatik bir yoluna sahip olmak istiyor. HyperPod'daki EKS desteği, kendi kendini iyileştiren performanslı kümeler sunan SageMaker HyperPod'un avantajlarını, yönetilen bir Kubernetes hizmeti olan Amazon EKS'nin container'lı hale getirme özellikleriyle bir araya getirir. Bu lansman ile müşteriler, eğitim sırasında ortaya çıkan hataları azaltmak için küme oluşturma sırasında detaylı durum denetimleri gerçekleştirebilir. Ayrıca HyperPod, hatalı düğümleri otomatik olarak değiştirir ve hem AWS Trainium hem de Nvidia GPU üzerindeki son denetim noktanızdan binden fazla hızlandırıcı ölçeğinde eğitime devam eder. Müşteriler, iş yüklerini göndermek, yönetmek ve izlemek için yeni HyperPod CLI'yi veya tercih ettikleri araçları kullanma esnekliğine sahiptir. Kalıcı küme ortamı, ssm erişimi ve kümeyi özelleştirme olanağı sunar. EKS tarafından düzenlenen HyperPod kümeleri, HyperPod düğüm durumunu otomatik olarak keşfedip, seçilmiş panolarda görselleştirerek kullanıma hazır gözlemlenebilirlik sağlamak için CloudWatch Container Öngörüleri ile de entegre edilir.

Bu sürüm, Avrupa (Londra) dışında SageMaker HyperPod'un kullanılabildiği AWS Bölgelerinde genel olarak kullanılabilir.

Daha fazla bilgi edinmek için şu kaynaklar listesine bakın: Web Sayfası, AWS Haber Blogu, Belgeler, Github deposu.