Các cụm Amazon SageMaker HyperPod Slurm hiện hỗ trợ chỉ định yêu cầu dung lượng tối thiểu với khả năng cấp phát liên tục

Ngày đăng: 27 Th05 2026

Amazon SageMaker HyperPod hiện hỗ trợ yêu cầu dung lượng tối thiểu (MinCount) cho các cụm sử dụng cơ chế điều phối Slurm với khả năng cấp phát liên tục. Với khả năng cấp phát liên tục, HyperPod cung cấp các cụm với dung lượng một phần khả dụng để bạn có thể nhanh chóng bắt đầu các công việc AI/ML, đồng thời tiếp tục cấp phát các phiên bản còn lại theo phương thức không đồng bộ ở chế độ nền. Mặc dù điều này mang lại sự linh hoạt, một số khối lượng công việc đào tạo yêu cầu số lượng nút tối thiểu được đảm bảo trước khi có thể bắt đầu hiệu quả. MinCount cho phép bạn chỉ định số lượng phiên bản tối thiểu phải được cung cấp thành công trước khi nhóm phiên bản chuyển sang trạng thái InService, cho phép bạn kiểm soát tốt hơn thời điểm cụm của bạn trở nên khả dụng để lập lịch công việc.

Điều này đặc biệt hữu ích cho khối lượng công việc đào tạo phân tán sử dụng các khung như PyTorch FSDP, Megatron-LM hoặc NVIDIA NeMo. Trong các khung này, công việc đào tạo thường được cấu hình với số lượng nút tham gia cố định và có thể không bắt đầu hiệu quả hoặc chính xác với dung lượng cụm một phần. Tính năng này cũng mang lại lợi ích cho các đội ngũ cần đảm bảo số lượng GPU cơ bản để đáp ứng SLA hoặc các mục tiêu hiệu quả chi phí trước khi cam kết chạy đào tạo.

Bạn có thể chỉ định MinInstanceCount trong yêu cầu API CreateCluster hoặc UpdateCluster để đặt ngưỡng dung lượng tối thiểu cho một nhóm phiên bản. Nhóm phiên bản vẫn ở trạng thái Đang tạo hoặc Đang cập nhật cho đến khi đáp ứng ngưỡng, sau đó chuyển sang InService và các nút trở nên khả dụng để lập lịch công việc Slurm. HyperPod tiếp tục khởi chạy các phiên bản bổ sung ngoài MinCount cho đến khi đạt được số lượng mục tiêu. Nếu không thể thỏa mãn MinCount trong vòng 3 giờ, hệ thống sẽ tự động quay lui nhóm phiên bản về trạng thái tốt cuối cùng đã biết.

MinCount cho các cụm Slurm với khả năng cấp phát liên tục có sẵn ở tất cả các Khu vực AWS hỗ trợ Amazon SageMaker HyperPod. Để bắt đầu chỉ định yêu cầu dung lượng tối thiểu cho cụm của bạn, hãy xem Yêu cầu dung lượng tối thiểu (MinCount) trong tài liệu Amazon SageMaker AI.