SageMaker HyperPod artık dağıtılmış eğitim iş yükleri için grup zamanlamasını destekliyor
Amazon SageMaker HyperPod görev yönetişimi artık grup zamanlamasını destekliyor. Bu sayede dağıtılmış bir eğitim işi için gerekli tüm pod'ların eğitim başlamadan önce hazır olması sağlanıyor. Yöneticiler, kısmi iş çalıştırmalarından kaynaklanan kaynak israfını önlemek ve kaynak bekleyen işlerde oluşabilecek kilitlenmeleri engellemek için grup zamanlamasını yapılandırabilir.
EKS düzenleyicisini kullanan Amazon SageMaker HyperPod kümelerinde dağıtılmış AI/ML eğitim işi çalıştıran veri bilimcileri, düğümler arasında pod'dan pod'a iletişimle birlikte çalışan birden fazla pod'a ihtiyaç duyar. Bazı pod'lar başlarken diğerleri başlamazsa, işler ilerleme kaydetmeden kaynakları tutabilir, diğer iş yüklerini engelleyebilir ve maliyetleri artırabilir. Grup zamanlaması, iş yükündeki tüm pod'ları izleyerek ve belirli süre içinde hepsi hazır olmazsa iş yükünü geri çekerek bu sorunu çözer. Geri çekilen iş yükleri, duraksamayı önlemek için otomatik olarak yeniden kuyruğa alınır. Yöneticiler HyperPod Konsolunda; pod'ların hazır olması için beklenecek süre, düğüm hatalarının nasıl ele alınacağı, yoğun kümelerde kilitlenmeyi önlemek için iş yüklerinin tek tek kabul edilip edilmeyeceği ve yeniden denemelerin nasıl planlanacağı gibi ayarları yapılandırabilir.
Bu özellik şu anda EKS düzenleyicisini kullanan Amazon SageMaker HyperPod kümeleri için aşağıdaki AWS bölgelerinde kullanılabilir: ABD Doğu (Kuzey Virginia), ABD Doğu (Ohio), ABD Batı (Kuzey Kaliforniya), ABD Batı (Oregon), Asya Pasifik (Mumbai), Asya Pasifik (Singapur), Asya Pasifik (Sidney) ve Asya Pasifik (Tokyo), Asya Pasifik (Cakarta), Avrupa (Frankfurt), Avrupa (İrlanda), Avrupa (Londra), Avrupa (Stokholm), Avrupa (İspanya) ve Güney Amerika (São Paulo).
Daha fazla bilgi edinmek için SageMaker HyperPod web sayfasını ve HyperPod görev yönetişimi belgelerini ziyaret edin.