Amazon SageMaker HyperPod hiện đã hỗ trợ khởi động lại và thay thế nút theo lập trình

Ngày đăng: 26 Th11 2025

Hôm nay, Amazon SageMaker HyperPod công bố cung cấp rộng rãi các API mới, cho phép khởi động lại và thay thế các nút cụm SageMaker HyperPod theo lập trình. SageMaker HyperPod giúp bạn cung cấp các cụm có khả năng phục hồi cao để chạy khối lượng công việc máy học (ML) và phát triển các mô hình hiện đại, như: mô hình ngôn ngữ lớn (LLM), mô hình khuếch tán và mô hình nền tảng (FM). Các API BatchRebootClusterNodes và BatchReplaceClusterNodes mới cho phép khách hàng khởi động lại hoặc thay thế theo lập trình các nút cụm không phản hồi hoặc bị suy giảm hiệu năng, mang đến một phương pháp khôi phục nút nhất quán và độc lập với trình điều phối.

Những API mới này tăng cường khả năng quản lý nút cho cả cụm được điều phối bằng Slurm và EKS, bổ sung cho quy trình làm việc khởi động lại và thay thế nút hiện có. Các phương pháp hiện có cho từng trình điều phối, chẳng hạn như nhãn Kubernetes cho cụm EKS và lệnh Slurm cho cụm Slurm, vẫn được giữ nguyên bên cạnh các tính năng lập trình mới được giới thiệu để thực hiện thao tác khởi động lại và thay thế thông qua những API được xây dựng cho mục đích nhất định này. Khi các nút trong cụm không phản hồi do những vấn đề như quá tải bộ nhớ hoặc suy giảm hiệu năng phần cứng, các thao tác phục hồi như khởi động lại và thay thế nút có thể trở nên cần thiết và được khởi tạo thông qua các API mới này. Những khả năng này đặc biệt hữu ích khi vận hành khối lượng công việc nhạy cảm về thời gian. Ví dụ: khi trình nút điều khiển, nút đăng nhập hoặc nút tính toán của Slurm không phản hồi, quản trị viên có thể kích hoạt thao tác khởi động lại bằng API và theo dõi tiến trình để đưa các nút trở lại trạng thái hoạt động. Tương tự, quản trị viên cụm EKS có thể thay thế các nút thợ bị suy giảm hiệu năng theo cách lập trình. Mỗi API hỗ trợ thao tác hàng loạt lên đến 25 phiên bản, cho phép quản lý hiệu quả các kịch bản phục hồi quy mô lớn.

Các API khởi động lại và thay thế hiện được hỗ trợ ở ba khu vực AWS có hỗ trợ SageMaker HyperPod: Miền Đông Hoa Kỳ (Ohio), Châu Á Thái Bình Dương (Mumbai) và Châu Á Thái Bình Dương (Tokyo). Những API này có thể được truy cập thông qua các lệnh gọi AWS CLI, SDK hoặc API. Để biết thêm thông tin, hãy xem BatchRebootClusterNodesBatchReplaceClusterNodes trong tài liệu về Amazon SageMaker HyperPod.