AWS Parallel Computing Service hiện hỗ trợ Slurm 25.11

Ngày đăng: 23 Th04 2026

AWS Parallel Computing Service (AWS PCS) hiện hỗ trợ Slurm phiên bản 25.11, kèm theo hỗ trợ dành cho điểm cuối OpenMetrics tương thích với Prometheus và giới thiệu các loại bản ghi mới, bao gồm bản ghi kiểm tra của trình lập lịch.

Bản phát hành Slurm 25.11 này giới thiệu tính năng đưa lại vào hàng đợi nhanh chóng, có thể tự động lên lịch lại các công việc bị ảnh hưởng bởi sự cố nút ở mức độ ưu tiên cao nhất nhằm giúp khối lượng công việc của bạn phục hồi nhanh hơn. Bạn có thể kích hoạt điểm cuối OpenMetrics mới để có khả năng hiển thị theo thời gian thực về công việc, nút và lên lịch bằng cách sử dụng các công cụ giám sát hiện có. AWS PCS giờ đây cũng có thể gửi bản ghi daemon cơ sở dữ liệu Slurm (slurmdbd) và daemon API REST (slurmrestd) tới Bản ghi Amazon CloudWatch, Amazon S3 hoặc Amazon Data Firehose, giúp chẩn đoán các sự cố ghi nhận sử dụng tài nguyên và gỡ lỗi tích hợp API. Bản ghi kiểm tra của trình lập lịch, trước đây được bao gồm trong bản ghi hoạt động, hiện được phân phối dưới dạng loại bản ghi chuyên dụng, cung cấp khả năng kiểm soát độc lập đối với chi phí tải nhập và lưu trữ.

AWS PCS là một dịch vụ được quản lý, giúp bạn dễ dàng chạy và điều chỉnh quy mô khối lượng công việc điện toán hiệu năng cao (HPC), cũng như xây dựng các mô hình khoa học và kỹ thuật trên AWS bằng Slurm. Bạn có thể sử dụng AWS PCS để xây dựng các môi trường hoàn chỉnh, linh hoạt tích hợp các công cụ điện toán, lưu trữ, kết nối mạng và trực quan hóa. AWS PCS đơn giản hóa hoạt động cụm với các bản cập nhật được quản lý và các tính năng quan sát được tích hợp sẵn, giúp loại bỏ gánh nặng bảo trì. Bạn có thể làm việc trong một môi trường quen thuộc, tập trung vào công tác nghiên cứu và đổi mới thay vì lo lắng về cơ sở hạ tầng.

Những tính năng này được cung cấp ở tất cả các Khu vực AWS hỗ trợ AWS PCS. Phí tiêu chuẩn áp dụng cho các điểm đến phân phối bản ghi. Để tìm hiểu thêm về AWS PCS, hãy tham khảo tài liệu về dịch vụ.