Amazon SageMaker HyperPod sekarang mendukung reboot dan penggantian simpul terprogram

Dikirim di: 26 Nov 2025

Hari ini, Amazon SageMaker HyperPod mengumumkan ketersediaan umum API baru yang memungkinkan reboot terprogram dan penggantian simpul klaster SageMaker HyperPod. SageMaker HyperPod membantu Anda menyediakan klaster tangguh untuk menjalankan beban kerja machine learning (ML) dan mengembangkan model canggih seperti model bahasa besar (LLM), model difusi, dan model fondasi (FM). BatchRebootClusterNodes dan BatchReplaceClusterNodes API baru memungkinkan pelanggan melakukan reboot atau mengganti simpul klaster yang tidak responsif atau terdegradasi secara terprogram, memberikan pendekatan agnostik orkestrator yang konsisten untuk operasi pemulihan simpul.

API baru meningkatkan kemampuan manajemen simpul untuk klaster yang diatur Slurm dan EKS yang melengkapi alur kerja reboot dan penggantian simpul yang ada. Metode khusus orkestrator yang ada, seperti label Kubernetes untuk klaster EKS dan perintah Slurm untuk klaster Slurm, tetap tersedia bersama kemampuan terprogram yang baru diperkenalkan untuk operasi reboot dan penggantian melalui API yang dibuat khusus ini. Ketika klaster simpul menjadi tidak responsif karena masalah seperti kelebihan memori atau degradasi perangkat keras, operasi pemulihan seperti reboot dan penggantian simpul mungkin diperlukan dan dapat dimulai melalui API baru ini. Kemampuan ini sangat berharga saat menjalankan beban kerja yang sensitif terhadap waktu. Misalnya, ketika pengontrol Slurm, login atau simpul komputasi menjadi tidak responsif, administrator dapat memicu operasi reboot menggunakan API dan memantau kemajuannya untuk mengembalikan simpul ke status operasional. Demikian pula, administrator klaster EKS dapat mengganti simpul pekerja yang terdegradasi secara terprogram. Setiap API mendukung operasi batch hingga 25 instans, memungkinkan pengelolaan skenario pemulihan skala besar yang efisien.

API reboot dan ganti saat ini didukung di tiga AWS region tempat SageMaker HyperPod tersedia: AS Timur (Ohio), Asia Pasifik (Mumbai), dan Asia Pasifik (Tokyo) .API dapat diakses melalui AWS CLI, SDK, atau panggilan API. Untuk informasi selengkapnya, lihat dokumentasi Amazon SageMaker HyperPod untuk BatchRebootClusterNodes dan BatchReplaceClusterNodes.