SageMaker HyperPod hiện hỗ trợ khả năng lập lịch toàn thể cho các khối lượng công việc đào tạo phân tán
Tính năng quản trị nhiệm vụ của Amazon SageMaker HyperPod hiện hỗ trợ khả năng lập lịch toàn thể, bảo đảm tất cả các pod cần thiết cho công việc đào tạo phân tán đều sẵn sàng trước khi bắt đầu đào tạo. Quản trị viên có thể định cấu hình khả năng lập lịch toàn thể để phòng ngừa sự lãng phí điện toán từ việc chạy một phần công việc và tránh tắc nghẽn từ các công việc đang chờ tài nguyên.
Các nhà khoa học dữ liệu chạy công việc đào tạo AI/ML phân tán trên các cụm Amazon SageMaker HyperPod thông qua trình điều phối EKS thường yêu cầu nhiều pod hoạt động cùng nhau trên các nút với khả năng truyền dữ liệu giữa các pod. Khi pod này bắt đầu còn pod khác thì không, các công việc có thể chiếm giữ tài nguyên mà không tiến triển, chặn các khối lượng công việc khác và tăng chi phí. Khả năng lập lịch toàn thể giải quyết vấn đề này bằng cách giám sát tất cả các pod trong khối lượng công việc và kéo khối lượng công việc trở lại nếu không có đủ tất cả các pod sẵn sàng trong một khoảng thời gian đã định. Khối lượng công việc bị kéo lại sẽ được tự động xếp hàng lại để tránh đình trệ. Quản trị viên có thể điều chỉnh các mục cài đặt trên Bảng điều khiển HyperPod, như: thời gian đợi các pod sẵn sàng, cách xử lý lỗi nút, có hay không chấp nhận lần lượt từng khối lượng công việc để tránh tắc nghẽn trên các cụm bận rộn và cách lập lịch việc thử lại.
Khả năng này hiện được cung cấp cho các cụm Amazon SageMaker HyperPod qua trình điều phối EKS ở các Khu vực AWS sau: Miền Đông Hoa Kỳ (Bắc Virginia), Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Bắc California), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Mumbai), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Tokyo), Châu Á Thái Bình Dương (Jakarta), Châu Âu (Frankfurt), Châu Âu (Ireland), Châu Âu (London), Châu Âu (Stockholm), Châu Âu (Tây Ban Nha) và Nam Mỹ (São Paulo).
Để tìm hiểu thêm, hãy truy cập trang web SageMaker HyperPod và tài liệu về quản trị nhiệm vụ HyperPod.