Amazon SageMaker HyperPod hiện hỗ trợ kiểm tra tình trạng sâu theo yêu cầu

Ngày đăng: 17 Th04 2026

Amazon SageMaker HyperPod hiện hỗ trợ kiểm tra tình trạng sâu theo yêu cầu đối với các cụm Amazon EKS và cụm do Slurm điều phối, cho phép bạn chủ động xác minh tình trạng của bộ tăng tốc GPU trên các phiên bản đang chạy bất cứ lúc nào. Các cụm do HyperPod Slurm điều phối giờ đây cũng hỗ trợ kiểm tra tình trạng sâu trong quá trình cung cấp nút, tại thời điểm tạo cụm. Khả năng này giúp giải quyết một thách thức nghiêm trọng: chỉ một nút không lành mạnh cũng có thể lãng phí nhiều giờ điện toán và trì hoãn khối lượng công việc quan trọng.

Với tính năng kiểm tra tình trạng sâu theo yêu cầu, bạn có thể nhắm đến toàn bộ nhóm phiên bản hoặc các phiên bản cụ thể để chạy kiểm thử toàn diện tính ổn định phần cứng và kiểm thử kết nối trước khi xác nhận tài nguyên điện toán cho một công việc. Tiến trình và kết quả được hiển thị ở cả hai cấp độ nhóm phiên bản và phiên bản thông qua bảng điều khiển SageMaker và API, bảo đảm khả năng hiển thị đầy đủ về tình trạng GPU, kết nối mạng và hiệu suất truyền dữ liệu đa nút. Các phiên bản đang được kiểm thử sẽ tự động được tách khỏi lịch trình khối lượng công việc và được đưa trở lại dịch vụ khi có kết quả đạt. Khi được ghép nối với khả năng tự động phục hồi nút của HyperPod, các phiên bản có kết quả kiểm thử không đạt sẽ tự động được khởi động lại hoặc thay thế để bảo đảm tình trạng của cụm.

Khả năng này được cung cấp ở tất cả các khu vực có Amazon SageMaker HyperPod. Để tìm hiểu thêm về phần kiểm tra tình trạng theo yêu cầu, hãy xem tài liệu.