Amazon SageMaker HyperPod hiện đã hỗ trợ các nhãn và taint Kubernetes tùy chỉnh

Ngày đăng: 26 Th11 2025

Amazon SageMaker HyperPod hiện hỗ trợ các nhãn và taint Kubernetes tùy chỉnh, cho phép khách hàng kiểm soát lịch trình pod và tích hợp liền mạch với cơ sở hạ tầng Kubernetes hiện có. Khách hàng triển khai khối lượng công việc AI trên các cụm HyperPod được điều phối bằng EKS cần kiểm soát chính xác vị trí khối lượng công việc để ngăn chặn tình trạng các pod hệ thống và khối lượng công việc không phải AI sử dụng những tài nguyên GPU đắt tiền, đồng thời đảm bảo khả năng tương thích với các plugin thiết bị tùy chỉnh như trình vận hành EFA và NVIDIA GPU. Trước đây, khách hàng phải tự áp dụng nhãn và taint bằng kubectl và thực hiện lại việc này sau mỗi lần thay thế nút, điều chỉnh quy mô hoặc vá lỗi, dẫn đến phát sinh chi phí hoạt động đáng kể.

Khả năng này cho phép bạn cấu hình nhãn và taint ở cấp nhóm phiên bản thông qua các API CreateCluster và UpdateCluster, mang đến một phương pháp được quản lý để định nghĩa và duy trì chính sách lập lịch trong suốt vòng đời của nút. Sử dụng tham số KubernetesConfig mới, bạn có thể chỉ định tối đa 50 nhãn và 50 taint cho mỗi nhóm phiên bản. Nhãn cho phép tổ chức tài nguyên và nhắm mục tiêu pod thông qua các bộ chọn nút, trong khi taint ngăn chặn các pod không có dung sai phù hợp nhằm bảo vệ các nút chuyên biệt. Ví dụ: bạn có thể áp dụng các taint NoSchedule cho các nhóm phiên bản GPU để đảm bảo chỉ các công việc đào tạo AI có dung sai rõ ràng mới được sử dụng tài nguyên tính toán đắt tiền, hoặc bạn có thể thêm nhãn tùy chỉnh cho phép các pod plugin thiết bị lên lịch chính xác. HyperPod tự động áp dụng các cấu hình này trong quá trình tạo nút, đồng thời duy trì chúng trong các hoạt động thay thế, điều chỉnh quy mô và vá lỗi, loại bỏ sự can thiệp thủ công và giảm chi phí hoạt động.

Tính năng này được cung cấp ở tất cả các Khu vực AWS có hỗ trợ Amazon SageMaker HyperPod. Để tìm hiểu thêm về nhãn và taint tùy chỉnh, hãy xem hướng dẫn sử dụng.