Amazon SageMaker HyperPod artık programlı düğümün yeniden başlatılmasını ve değiştirilmesini destekliyor
Bugün Amazon SageMaker HyperPod, SageMaker HyperPod küme düğümlerinin programlı olarak yeniden başlatılmasını ve değiştirilmesini sağlayan yeni API'lerin genel kullanılabilirliğini duyurdu. SageMaker HyperPod, makine öğrenimi (ML) iş yüklerini çalıştırmak ve büyük dil modelleri (LLM'ler), difüzyon modelleri ve altyapı modelleri (FM'ler) gibi son teknoloji modelleri geliştirmek için esnek kümeler oluşturmanıza yardımcı olur. Yeni BatchRebootClusterNodes ve BatchReplaceClusterNodes API'leri, müşterilerin yanıt vermeyen veya bozulmuş küme düğümlerini programlı olarak yeniden başlatmasına veya değiştirmesine olanak tanıyarak düğüm kurtarma işlemlerine tutarlı ve düzenleyiciden bağımsız bir yaklaşım sağlar.
Yeni API'ler, hem Slurm hem de EKS düzenlenmiş kümeler için düğüm yönetimi özelliklerini geliştirerek mevcut düğüm yeniden başlatma ve değiştirme iş akışlarını tamamlar. EKS kümeleri için Kubernetes etiketleri ve Slurm kümeleri için Slurm komutları gibi mevcut düzenleyiciye özgü yöntemler, amaca yönelik API'ler aracılığıyla yeniden başlatma ve değiştirme işlemleri için yeni tanıtılan programlı özelliklerle beraber kullanılabilir durumda kalır. Küme düğümleri bellek aşımı veya donanım bozulması gibi sorunlar nedeniyle yanıt vermediğinde, düğüm yeniden başlatma ve değiştirme gibi gerekli olan kurtarma işlemleri bu yeni API'ler aracılığıyla başlatılabilir. Bu özellikler özellikle zamana duyarlı iş yüklerini çalıştırırken faydalıdır. Örneğin bir Slurm denetleyicisi, oturum açma veya hesaplama düğümü yanıt vermediğinde, yöneticiler API'yi kullanarak bir yeniden başlatma işlemini tetikleyebilir ve düğümleri çalışma durumuna geri döndürmek için ilerlemesini izleyebilir. Benzer şekilde, EKS küme yöneticileri, bozulmuş çalışan düğümlerini programlı olarak değiştirebilir. Her API, 25 adede kadar bulut sunucusunun toplu işlemlerini destekleyerek büyük ölçekli kurtarma senaryolarının verimli bir şekilde yönetilmesini sağlar.
Yeniden başlatma ve değiştirme API'leri şu anda SageMaker HyperPod'un kullanılabildiği üç AWS bölgesinde desteklenmektedir: ABD Doğu (Ohio), Asya Pasifik (Mumbai) ve Asya Pasifik (Tokyo). API'lere AWS CLI, SDK veya API çağrıları aracılığıyla erişilebilir. Daha fazla bilgi için BatchRebootClusterNodes ve BatchReplaceClusterNodes hakkındaki Amazon SageMaker HyperPod belgelerine bakın.