Amazon SageMaker HyperPod sekarang mendukung tindakan simpul dari konsol
Amazon SageMaker HyperPod kini memungkinkan Anda mengelola simpul klaster individual langsung dari Konsol AWS. Operator klaster HyperPod yang mengelola beban kerja AI/ML skala besar sering perlu terhubung ke simpul untuk pemecahan masalah, me-reboot instans yang tidak responsif, atau mengganti simpul yang terdegradasi. Menghubungkan ke simpul yang sebelumnya diperlukan secara manual membangun string koneksi SSM, sementara tindakan pemulihan simpul seperti reboot dan ganti perintah CLI yang diperlukan — konsol sekarang menyediakan antarmuka tunggal untuk semua tindakan simpul.
Dengan tindakan simpul di konsol, Anda sekarang dapat terhubung ke simpul apa pun melalui AWS Systems Manager (SSM). Konsol menyediakan perintah SSM CLI yang telah diisi sebelumnya dengan dukungan copy-to-clipboard, dan peluncuran sesi SSM langsung di konsol. Meskipun klaster SageMaker HyperPod sudah mendukung penggantian otomatis dan reboot instans yang tidak sehat, ada skenario seperti kelebihan memori atau degradasi hardware yang tidak terdeteksi yang mungkin memerlukan intervensi manual. Sekarang, tindakan simpul di konsol memberikan pendekatan yang konsisten untuk me-reboot simpul secara manual untuk memulihkan dari masalah sementara, menghapus simpul yang tidak sehat, dan mengganti simpul, dengan operasi batch yang mendukung beberapa tindakan simpul secara bersamaan, memungkinkan Anda menyelesaikan masalah simpul dalam hitungan menit. Kemampuan ini sangat berharga saat menjalankan pelatihan AI yang peka waktu dan beban kerja inferensi di mana meminimalkan waktu henti sangat penting.
Fitur ini tersedia di semua AWS Region di mana Amazon SageMaker HyperPod didukung. Anda dapat melakukan semua tindakan simpul ini di halaman manajemen Klaster HyperPod di konsol. Klik tautan masing-masing untuk mempelajari lebih lanjut tentang mengganti/reboot dan menghubungkan ke simpul.