SageMaker HyperPod kini mendukung penjadwalan geng untuk beban kerja pelatihan terdistribusi

Dikirim di: 8 Apr 2026

Tata kelola tugas Amazon SageMaker HyperPod kini mendukung penjadwalan geng, yang memastikan semua pod yang diperlukan untuk pekerjaan pelatihan terdistribusi siap sebelum pelatihan dimulai. Administrator dapat mengonfigurasi penjadwalan geng untuk mencegah komputasi yang terbuang dari proses sebagian pekerjaan dan menghindari kebuntuan dari pekerjaan yang menunggu sumber daya.

Ilmuwan data yang menjalankan tugas pelatihan AI/ML terdistribusi di klaster Amazon SageMaker HyperPod menggunakan orkestrator EKS memerlukan beberapa pod untuk bekerja bersama di seluruh node dengan komunikasi pod-to-pod. Ketika beberapa pod mulai tetapi yang lain tidak, pekerjaan dapat mempertahankan sumber daya tanpa membuat kemajuan, memblokir beban kerja lain, dan meningkatkan biaya. Penjadwalan geng mengatasi hal ini dengan memantau semua pod dalam suatu beban kerja dan menarik kembali beban kerja tersebut jika tidak semua pod siap dalam waktu yang telah ditentukan. Beban kerja yang ditarik kembali secara otomatis diminta untuk mencegah penundaan. Administrator dapat menyesuaikan pengaturan pada HyperPod Console, seperti berapa lama menunggu pod siap, cara menangani kegagalan node, apakah akan menerima beban kerja satu per satu untuk menghindari kebuntuan pada klaster yang sibuk, dan bagaimana percobaan ulang dijadwalkan.

Kemampuan ini saat ini tersedia untuk klaster Amazon SageMaker HyperPod menggunakan orkestrator EKS di AWS Region berikut: AS Timur (Virginia Utara), AS Timur (Ohio), AS Barat (California Utara), AS Barat (Oregon), Asia Pasifik (Mumbai), Asia Pasifik (Singapura), Asia Pasifik (Sydney), dan Asia Pasifik (Tokyo), Asia Pasifik (Jakarta), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Stockholm), Eropa (Spanyol), dan Amerika Selatan (Sao Paulo).

Untuk mempelajari selengkapnya, kunjungi halaman web SageMaker HyperPod, dan dokumentasi tata kelola tugas HyperPod.