Amazon SageMaker HyperPod hiện cung cấp khả năng quan sát toàn diện cho Nhóm phiên bản bị hạn chế

Ngày đăng: 4 Th03 2026

Amazon SageMaker HyperPod hiện cung cấp khả năng quan sát toàn diện cho Nhóm phiên bản bị hạn chế (RIG), cho phép các nhóm đào tạo mô hình nền tảng với Nova Forge để có được khả năng hiển thị chuyên sâu về tài nguyên điện toán và khối lượng công việc đào tạo của họ. Với khả năng mới này, bạn không cần phải thực hiện thủ công việc thu thập và xác định tương quan các chỉ số trên toàn bộ cơ sở hạ tầng, cũng như có được một chế độ xem hợp nhất về hiệu suất GPU, tình trạng hệ thống, thông lượng mạng và trạng thái cụm Kubernetes qua bảng thông tin Grafana được quản lý của Amazon được định cấu hình sẵn, với sự hỗ trợ của Dịch vụ được quản lý của Amazon dành cho Prometheus.

Giờ đây, bạn có thể theo dõi mức sử dụng GPU, băng thông NVLink, mức sử dụng CPU, mức sử dụng FSx dành cho Lustre và vòng đời pod trong cùng một bảng thông tin Grafana, với các chỉ số được thu thập từ bốn đối tượng xuất, bao gồm hiệu suất GPU, tình trạng hệ thống ở cấp máy chủ, kết cấu mạng và trạng thái đối tượng Kubernetes. Ngoài ra, các bản ghi tuyển chọn sẽ tự động được cung cấp trong các bảng thông tin này, bao gồm tiến trình epoch, bản ghi đào tạo ở cấp độ bước, lỗi quy trình và các mục truy nguyên Python, để bạn có thể nhanh chóng chẩn đoán sự cố đào tạo. Khả năng quan sát của HyperPod cho Nhóm phiên bản bị hạn chế được kích hoạt tự động khi bạn tạo cụm mới bằng RIG, hoặc bạn có thể kích hoạt khả năng này cho các cụm hiện có với vài cú nhấp chuột trong bảng điều khiển quản lý cụm HyperPod.

Khả năng quan sát RIG của Amazon SageMaker HyperPod được cung cấp ở tất cả các Khu vực AWS hỗ trợ RIG của SageMaker HyperPod. Để tìm hiểu thêm, hãy truy cập tài liệu.