Container Insights sekarang mengumumkan observabilitas kondisi simpul SageMaker HyperPod pada EKS
Wawasan Kontainer Amazon CloudWatch sekarang secara otomatis menemukan status kesehatan simpul SageMaker HyperPod yang berjalan di EKS dan memvisualisasikannya di dasbor yang telah dikurasi untuk membantu Anda memantau ketersediaan simpul untuk keunggulan operasional. Dengan menggunakan dasbor bawaan, Anda dapat dengan mudah mengidentifikasi simpul yang tidak sehat dan dengan cepat mengatasinya, sehingga memastikan durasi pelatihan yang efisien.
Container Insights bekerja dengan SageMaker untuk mengumpulkan hasil tes pemeriksaan kondisi mendalam untuk simpul HyperPod dan menampilkannya di dasbor preset untuk membantu Anda memahami kesehatan dan kinerja simpul Anda, dan mengidentifikasi apakah simpul tersebut siap untuk penjadwalan. Container Insights membantu Anda dalam mengoptimalkan durasi pelatihan dengan mengklasifikasikan simpul yang gagal sebagai “reboot tertunda” dan “penggantian yang tertunda”, dan memandu Anda menjaga kondisi simpul jika penggantian simpul otomatis dinonaktifkan. Jika pemulihan otomatis diaktifkan, Anda dapat memperoleh visibilitas ke dalam mutasi simpul, penundaan dalam pekerjaan pelatihan Anda, dan memahami bagaimana tugas Anda dilanjutkan dari titik pemeriksaan terakhir.
Memulai dengan Container Insights sangatlah mudah. Anda dapat melakukan integrasi dengan menginstal CloudWatch Observability EKS Add-on atau agen CloudWatch terbaru ke klaster Anda, atau memutakhirkan bagan Helm Anda dengan versi CloudWatch Agent terbaru. Setelah dikonfigurasi, Anda dapat menavigasi ke konsol Container Insights dan melihat status kondisi simpul Hyperpod SageMaker Anda secara langsung.
Observabilitas kondisi simpul SageMaker HyperPod sekarang tersedia di Container Insights for EKS di semua wilayah komersial tempat SageMaker HyperPod hadir. Metrik kesehatan simpul HyperPod mengikuti penetapan harga berbasis observasi—lihat halaman harga Container Insights untuk detailnya. Untuk informasi lebih lanjut, lihat panduan pengguna Container Insights.