Amazon SageMaker HyperPod hiện hỗ trợ khả năng cung cấp liên tục cho các cụm do Slurm điều phối
Giờ đây, Amazon SageMaker HyperPod mở rộng khả năng cung cấp liên tục đến các cụm bằng trình điều phối Slurm, mang đến độ linh hoạt và hiệu quả cao hơn cho khách hàng doanh nghiệp chạy khối lượng công việc đào tạo AI/ML trên quy mô lớn. Khách hàng AI/ML đang chạy các cụm dựa trên Slurm cần bắt đầu đào tạo nhanh chóng, điều chỉnh quy mô liền mạch, thực hiện bảo trì mà không làm gián đoạn hoạt động và có khả năng quan sát chi tiết các hoạt động của cụm. Trước đây, nếu không thể cung cấp đầy đủ cho bất kỳ nhóm phiên bản nào, toàn bộ thao tác tạo hoặc điều chỉnh quy mô cụm sẽ không thành công và bị quay lui, gây ra sự chậm trễ và yêu cầu can thiệp thủ công.
Với khả năng cung cấp liên tục cho Slurm, SageMaker HyperPod tự động cung cấp dung lượng còn lại ở dưới nền trong khi các công việc đào tạo có thể bắt đầu ngay lập tức trên các phiên bản có sẵn. Hệ thống sử dụng phương pháp cung cấp dựa trên mức độ ưu tiên để khởi động nút trình điều khiển Slurm trước tiên, tiếp theo là các nút đăng nhập và nút thợ song song, để cụm của bạn đạt đến trạng thái hoạt động nhanh nhất có thể. HyperPod thử lại không đồng bộ đối với các lượt khởi chạy nút không thành công và tự động thêm các nút vào cụm Slurm khi có sẵn, đảm bảo các cụm đạt được quy mô mong muốn một cách ổn định mà không cần can thiệp thủ công. Giờ đây, bạn có thể thực hiện các thao tác điều chỉnh quy mô đồng thời, không chặn trên nhiều nhóm phiên bản cùng lúc – tình trạng thiếu dung lượng trong một nhóm phiên bản sẽ không còn chặn thao tác điều chỉnh quy mô trong các nhóm phiên bản khác. Các tính năng này giúp khách hàng giảm thời gian đào tạo, tối đa hóa mức sử dụng tài nguyên và tập trung vào đổi mới thay vì phải quản lý cơ sở hạ tầng.
Tính năng này được cung cấp cho các cụm SageMaker HyperPod mới sử dụng trình điều phối Slurm. Bạn có thể bật tính năng cung cấp liên tục bằng cách đặt tham số NodeProvisioningMode thành “Liên tục” khi tạo cụm HyperPod mới bằng API CreateCluster. Bạn cũng có thể bật cung cấp liên tục khi tạo cụm mới thông qua AWS CLI và bảng điều khiển SageMaker AI.
Tính năng này được cung cấp ở tất cả các Khu vực AWS có hỗ trợ Amazon SageMaker HyperPod. Để tìm hiểu thêm về khả năng cung cấp liên tục cho các cụm Slurm, hãy xem Hướng dẫn sử dụng Amazon SageMaker HyperPod.