Memperkenalkan Pemantauan Kondisi GPU dan Perbaikan Otomatis untuk Instans Terkelola Amazon ECS

Dikirim di: 22 Apr 2026

Amazon Elastic Container Service (Amazon ECS) sekarang menawarkan pemantauan kondisi GPU NVIDIA dan fungsionalitas perbaikan otomatis untuk Instans Terkelola Amazon ECS. Kemampuan baru secara otomatis mendeteksi kegagalan perangkat keras GPU NVIDIA yang kritis dan menggantikan instans yang rusak, membantu pelanggan meningkatkan ketersediaan dan keandalan beban kerja kontainer mereka yang dipercepat GPU.

Menjalankan beban kerja yang dipercepat GPU, seperti inferensi GenAI, memerlukan manajemen perangkat keras khusus untuk mengurangi kegagalan dan meminimalkan gangguan. Instans Terkelola Amazon ECS kini terus memantau kondisi GPU menggunakan Data Center GPU Manager (DCGM) NVIDIA dan secara proaktif mengganti kapasitas yang terganggu saat terjadi kegagalan kritis. Anda dapat memantau kondisi GPU melalui API DescribeContainerInstances dan menerima pemberitahuan melalui Amazon EventBridge saat instans mengalami gangguan. Untuk beban kerja di mana Anda lebih suka mengelola siklus hidup instans secara manual, Anda dapat memilih keluar dari perbaikan otomatis di tingkat penyedia kapasitas dan menangani peristiwa kesalahan GPU dengan logika remediasi Anda sendiri.

Perbaikan otomatis kondisi GPU diaktifkan secara default di semua Instans Terkelola Amazon ECS yang berjalan pada jenis instans GPU NVIDIA yang didukung tanpa biaya tambahan. Kemampuan ini tersedia di semua Wilayah komersial AWS. Untuk mempelajari lebih lanjut, kunjungi Panduan Pengembang Amazon ECS.

Memperkenalkan Pemantauan Kondisi GPU dan Perbaikan Otomatis untuk Instans Terkelola Amazon ECS

Pelajari

Sumber Daya

Developer

Bantuan