Amazon SageMaker HyperPod kini menyediakan observabilitas komprehensif untuk Grup Instans Terbatas
Amazon SageMaker HyperPod kini menawarkan observabilitas komprehensif untuk Grup Instans Terbatas (RIG), memungkinkan tim melatih model dasar dengan Nova Forge untuk mendapatkan visibilitas mendalam ke sumber daya komputasi dan beban kerja pelatihan mereka. Kemampuan baru ini menghilangkan upaya manual untuk mengumpulkan dan menghubungkan metrik di seluruh tumpukan infrastruktur, memberikan tampilan terpadu tentang kinerja GPU, kesehatan sistem, throughput jaringan, dan status klaster Kubernetes melalui dasbor Amazon Managed Grafana yang telah dikonfigurasi sebelumnya yang didukung oleh Amazon Managed Service for Prometheus.
Anda kini dapat memantau pemanfaatan GPU, bandwidth NVLink, tekanan CPU, FSx untuk penggunaan Lustre, dan siklus hidup pod dari satu dasbor Grafana, dengan metrik yang dikumpulkan di empat eksportir yang mencakup kinerja GPU, kesehatan sistem tingkat host, struktur jaringan, dan status objek Kubernetes. Selain itu, log yang dikuratori secara otomatis tersedia di dasbor ini, mencakup kemajuan epoch, log pelatihan tingkat langkah, kesalahan jalur, dan pelacakan balik Python, sehingga Anda dapat dengan cepat mendiagnosis kegagalan pelatihan. Observabilitas HyperPod untuk Grup Instans Terbatas diaktifkan secara otomatis saat Anda membuat klaster terbaru menggunakan RIG, atau dapat diaktifkan untuk klaster yang ada dalam beberapa klik di konsol manajemen klaster HyperPod.
Observabilitas Amazon SageMaker HyperPod RIG tersedia di semua AWS Region di mana SageMaker HyperPod RIG didukung. Untuk mempelajari selengkapnya, kunjungi dokumentasi.