Amazon SageMaker HyperPod giới thiệu tính năng gỡ lỗi tập lệnh vòng đời nâng cao

Ngày đăng: 21 Th01 2026

Amazon SageMaker HyperPod hiện đã cung cấp khả năng khắc phục sự cố nâng cao cho các tập lệnh vòng đời, giúp việc xác định và giải quyết vấn đề trong quá trình cung cấp nút cụm trở nên dễ dàng hơn. SageMaker HyperPod giúp bạn cung cấp các cụm có khả năng phục hồi cao để chạy khối lượng công việc AI/ML và phát triển các mô hình hiện đại, như: mô hình ngôn ngữ lớn (LLM), mô hình khuếch tán và mô hình nền tảng (FM).

Giờ đây, khi tập lệnh vòng đời gặp sự cố trong quá trình tạo cụm hoặc thao tác nút, bạn sẽ nhận được thông báo lỗi chi tiết có cả nhóm bản ghi CloudWatch và tên luồng bản ghi cụ thể, trong đó bạn có thể tìm thấy bản ghi thực thi cho tập lệnh vòng đời. Bạn có thể xem các thông báo lỗi này bằng cách chạy API DescribeCluster hoặc bằng cách xem trang chi tiết cụm trong bảng điều khiển SageMaker. Bảng điều khiển cũng cung cấp nút "Xem bản ghi tập lệnh vòng đời" có chức năng điều hướng trực tiếp đến luồng bản ghi CloudWatch liên quan, giúp dễ dàng xác định vị trí bản ghi hơn. Ngoài ra, từ nay, bản ghi CloudWatch dành cho tập lệnh vòng đời sẽ bao gồm các bộ đánh dấu cụ thể để giúp bạn theo dõi tiến trình thực thi tập lệnh vòng đời, bao gồm các chỉ báo về thời điểm nhật ký tập lệnh vòng đời bắt đầu, thời điểm tập lệnh được tải xuống, thời điểm quá trình tải xuống hoàn tất và thời điểm tập lệnh thành công hoặc không thành công. Các bộ đánh dấu này giúp bạn nhanh chóng xác định vị trí xảy ra sự cố trong quá trình cung cấp. Các hạng mục cải tiến này giúp giảm thời gian cần thiết để chẩn đoán và khắc phục lỗi tập lệnh vòng đời, giúp tăng tốc độ thiết lập và chạy cụm HyperPod cho bạn.

Tính năng này được cung cấp ở tất cả các Khu vực AWS có hỗ trợ Amazon SageMaker HyperPod. Để tìm hiểu thêm, hãy xem Quản lý cụm SageMaker HyperPod trong Hướng dẫn dành cho nhà phát triển của Amazon SageMaker.