Amazon SageMaker HyperPod hiện hỗ trợ cấu hình Slurm theo định hướng API

Ngày đăng: 26 Th02 2026

Amazon SageMaker HyperPod hiện hỗ trợ cấu hình Slurm theo định hướng API, cho phép bạn xác định cấu trúc liên kết Slurm và cấu hình hệ thống tệp dùng chung ngay trong các yêu cầu API tạo và cập nhật cụm hoặc thông qua Bảng điều khiển AWS. SageMaker HyperPod giúp bạn cung cấp các cụm có khả năng phục hồi cao để chạy khối lượng công việc máy học (ML) và phát triển các mô hình hiện đại, như: mô hình ngôn ngữ lớn (LLM), mô hình khuếch tán và mô hình nền tảng (FM).

Với cấu hình theo định hướng API mới này, giờ đây bạn có thể chỉ định các loại nút Slurm bao gồm Controller, Login và Compute cho các nhóm phiên bản cụm, mục ánh xạ nhóm với phân vùng, cũng như các mục gắn hệ thống tệp FSx dành cho Lustre và FSx dành cho OpenZFS cho mỗi nhóm phiên bản ngay trong phần thông tin xác định API cụm hoặc thông qua phần cấu hình nâng cao trong Bảng điều khiển AWS. Khi bạn sửa đổi mục ánh xạ phân vùng – nút ngay trong các tệp cấu hình gốc của Slurm để tinh chỉnh giá trị chỉ định tài nguyên cụm, cấu hình phân vùng – nút của Slurm có thể sai lệch với chế độ xem của HyperPod. SlurmConfigStrategy mới ở cấp cụm giúp bạn quản lý sự sai lệch với ba tùy chọn: Managed (Được quản lý), Overwrite (Ghi đè) và Merge (Hợp nhất). Tùy chọn Managed (Được quản lý) cho phép bạn quản lý mục ánh xạ nhóm phiên bản với phân vùng hoàn toàn thông qua API hoặc Bảng điều khiển, đồng thời tự động phát hiện sự sai lệch trong mục ánh xạ phân vùng với nút trong các hoạt động tăng hoặc giảm quy mô theo tài nguyên. Khi sự sai lệch được phát hiện, các bản cập nhật cụm sẽ bị tạm dừng cho đến khi bạn giải quyết vấn đề bằng cách chuyển sang tùy chọn Overwrite (Ghi đè) để buộc thực hiện các mục ánh xạ do API xác định hay tùy chọn Merge (Hợp nhất) để duy trì các mục tùy chỉnh thủ công hoặc bằng cách cập nhật trực tiếp cấu hình Slurm cho phù hợp với HyperPod.

Cấu hình Slurm theo định hướng API được cung cấp ở tất cả các Khu vực AWS có SageMaker HyperPod. Để bắt đầu, bạn có thể sử dụng Bảng điều khiển quản lý AWS, AWS CLI, AWS CloudFormation hoặc SDK AWS. Để biết thêm thông tin, hãy xem tài liệu về Amazon SageMaker HyperPod để tạo cụm bằng Bảng điều khiển hoặc CLI, tài liệu tham khảo về API cho CreateClusterUpdateCluster.