AWS Parallel Computing Service (PCS) hiện hỗ trợ khởi động lại nút thông qua Slurm
AWS Parallel Computing Service (PCS) hiện cho phép bạn khởi động lại các nút điện toán bằng lệnh Slurm mà không cần kích hoạt việc thay thế phiên bản. Bằng tính năng này, bạn có thể khởi động lại các nút vì lý do vận hành như khắc phục sự cố, dọn dẹp tài nguyên và phục hồi khỏi trạng thái xuống cấp trước khi yêu cầu thay thế toàn bộ nút, giúp bạn duy trì một cách hiệu quả tình trạng cụm với chi phí thấp hơn.
Tính năng này được cung cấp ở tất cả các Khu vực AWS có PCS. Bạn có thể sử dụng lệnh “scontrol reboot” với các tùy chọn để lên lịch khởi động lại ngay lập tức hoặc khởi động lại sau, trong khi khởi động lại thông qua các phương pháp khác sẽ tiếp tục kích hoạt việc thay thế phiên bản. Để tìm hiểu thêm, hãy tham khảo Khởi động lại các nút điện toán bằng Slurm trong AWS PCS.
PCS là một dịch vụ được quản lý giúp đơn giản hóa việc chạy và điều chỉnh quy mô khối lượng công việc điện toán hiệu năng cao (HPC) trên AWS bằng Slurm. Để tìm hiểu thêm về PCS, hãy tham khảo tài liệu về dịch vụ.