Amazon SageMaker HyperPod hiện hỗ trợ các thao tác nút từ bảng điều khiển
Amazon SageMaker HyperPod giờ đây cho phép bạn quản lý các nút cụm riêng lẻ trực tiếp từ Bảng điều khiển AWS. Các nhà khai vận hành cụm HyperPod quản lý khối lượng công việc AI/ML quy mô lớn thường cần kết nối với các nút để khắc phục sự cố, khởi động lại các phiên bản không phản hồi hoặc thay thế các nút bị xuống cấp. Trước đây, việc kết nối với một nút yêu cầu xây dựng các chuỗi kết nối SSM theo cách thủ công, trong khi các thao tác khôi phục nút như khởi động lại và thay thế các lệnh CLI cần thiết – bảng điều khiển hiện cung cấp một giao diện duy nhất cho tất cả các thao tác của nút.
Với các thao tác nút trong bảng điều khiển, giờ đây bạn có thể kết nối với bất kỳ nút nào thông qua Trình quản lý hệ thống AWS (SSM). Bảng điều khiển cung cấp các lệnh SSM CLI được điền sẵn với hỗ trợ sao chép vào bảng tạm và khởi chạy phiên SSM trực tiếp trong bảng điều khiển. Mặc dù các cụm HyperPod của SageMaker đã hỗ trợ tự động thay thế và khởi động lại các phiên bản không có trạng thái tốt, nhưng có những tình huống như quá tải bộ nhớ hoặc suy thoái phần cứng không thể phát hiện có thể yêu cầu can thiệp thủ công. Giờ đây, các thao tác nút trong bảng điều khiển cung cấp một cách tiếp cận nhất quán để khởi động lại các nút theo cách thủ công để khôi phục từ các vấn đề tạm thời, xóa các nút không có trạng thái tốt và thay thế các nút, với các hoạt động hàng loạt hỗ trợ đồng thời nhiều thao tác nút, cho phép bạn giải quyết các vấn đề nút trong vài phút. Khả năng này đặc biệt có giá trị khi chạy khối lượng công việc đào tạo và suy luận AI đòi hỏi cao về thời gian, trong đó việc giảm thiểu thời gian ngừng hoạt động là điều cần thiết.
Tính năng này được cung cấp ở tất cả các Khu vực AWS có hỗ trợ Amazon SageMaker HyperPod. Bạn có thể thực hiện tất cả các thao tác nút này trong trang quản lý cụm HyperPod trên bảng điều khiển. Nhấp vào các liên kết tương ứng để tìm hiểu thêm về thay thế/khởi động lại và kết nối với một nút.