Amazon SageMaker HyperPod công bố hỗ trợ tác tử giám sát tình trạng cho các cụm Slurm

Ngày đăng: 15 Th09 2025

Hôm nay, Amazon SageMaker HyperPod công bố cung cấp rộng rãi tác tử theo dõi tình trạng cho các cụm Slurm. SageMaker HyperPod giúp bạn cung cấp các cụm có khả năng phục hồi cao để chạy khối lượng công việc máy học (ML) và phát triển các mô hình hiện đại, như: mô hình ngôn ngữ lớn (LLM), mô hình khuếch tán và mô hình nền tảng (FM). Tác tử giám sát tình trạng sẽ thực hiện việc kiểm tra tình trạng nền, thụ động đối với các phiên bản để xác định vấn đề ở các lĩnh vực chính mà không ảnh hưởng đến hoạt động hoặc hiệu suất của ứng dụng, đánh dấu lỗi tức thì và thay thế bất kỳ phiên bản không bình thường nào để giữ cho công việc đào tạo của bạn hoạt động trơn tru. 

Tác tử chạy liên tục ở tất cả các nút dựa trên GPU hoặc Trainium trong cụm HyperPod của bạn, theo dõi các vấn đề về phần cứng, ví dụ như GPU không phản hồi hoặc bộ đếm lỗi NVLink. Khi phát hiện lỗi, tác tử sẽ đánh dấu nút là không bình thường và tự động khởi động lại hoặc thay thế nút đó bằng một nút bình thường, duy trì quá trình chạy công việc mà bạn không cần can thiệp thủ công. Tác tử cũng tuân theo cách tiếp cận phối hợp để xử lý lỗi với chức năng tự động tiếp tục công việc có sẵn cho các cụm Slurm. Chẳng hạn, các công việc được bật chức năng tự động tiếp tục sẽ chạy tiếp từ điểm kiểm tra đã lưu gần đây nhất sau khi tác tử thay thế các nút. Với khả năng khôi phục rảnh tay này (đã có sẵn trên các cụm HyperPod được phối hợp với Amazon EKS), các cụm Slurm giờ đây cũng có được một môi trường có độ phục hồi cao, giúp các nhóm đào tạo các mô hình lớn trong nhiều tuần mà không bị gián đoạn, tiết kiệm được thời gian và chi phí có thể bị lãng phí nếu xảy ra lỗi giữa chừng. Ngoài ra, khách hàng hiện còn có thể khởi động lại các nút của họ bằng một lệnh đơn giản nếu gặp phải các vấn đề không liên tục, như vấn đề về trình điều khiển GPU yêu cầu thiết lập lại. 

Tác tử theo dõi tình trạng cho Slurm có sẵn ở tất cả các khu vực được cung cấp rộng rãi HyperPod. Tác tử được kích hoạt tự động trên tất cả các cụm Slurm mới tạo; để kích hoạt tác tử trên một cụm hiện có, bạn chỉ cần nâng cấp lên AMI HyperPod mới nhất bằng cách gọi API UpdateClusterSoftware. Để tìm hiểu thêm, hãy truy cập tài liệu về Amazon SageMaker HyperPod.