Amazon SageMaker HyperPod hiện hỗ trợ đào tạo không cần điểm kiểm tra

Ngày đăng: 3 Th12 2025

Amazon SageMaker HyperPod hiện hỗ trợ đào tạo không cần điểm kiểm tra – một khả năng đào tạo mô hình cơ bản mới giúp giảm thiểu nhu cầu khởi động lại cấp công việc dựa trên điểm kiểm tra để phục hồi sau lỗi. Đào tạo không cần điểm kiểm tra giúp duy trì tiến độ đào tạo liền mạch dù có sự cố xảy ra, và rút ngắn thời gian khôi phục từ hàng giờ xuống còn vài phút. Điều này đánh dấu một bước chuyển cơ bản so với cách khôi phục dựa trên điểm kiểm tra truyền thống, nơi mỗi lần xảy ra sự cố đều phải dừng toàn bộ cụm đào tạo, chẩn đoán lỗi thủ công và khôi phục từ điểm kiểm tra đã lưu. Quy trình đó có thể khiến các bộ tăng tốc AI đắt tiền phải nghỉ hàng giờ, gây lãng phí tài nguyên điện toán cho tổ chức của bạn.

Đào tạo không cần điểm kiểm tra biến đổi mẫu hình này bằng cách duy trì trạng thái đào tạo mô hình trên toàn cụm phân tán, tự động hoán đổi các nút đào tạo bị lỗi một cách nhanh chóng và sử dụng khả năng chuyển trạng thái ngang hàng từ các bộ tăng tốc khỏe mạnh để phục hồi sau lỗi. Bằng cách giảm thiểu sự phụ thuộc vào điểm kiểm tra trong quá trình phục hồi, đào tạo không cần điểm kiểm tra có thể giúp tổ chức của bạn tiết kiệm chi phí tăng tốc AI nhàn rỗi và đẩy nhanh thời gian. Ngay cả ở quy mô lớn hơn, đào tạo không cần điểm kiểm tra trên Amazon SageMaker HyperPod cho phép đào tạo tốt hơn 95% trên kích thước cụm với hàng nghìn bộ tăng tốc AI.

Đào tạo không cần điểm kiểm tra trên SageMaker HyperPod có ở tất cả các Khu vực AWS hiện hỗ trợ Amazon SageMaker HyperPod. Bạn có thể kích hoạt đào tạo không cần điểm kiểm tra mà không thay đổi mã bằng cách sử dụng công thức HyperPod cho các mô hình công khai phổ biến như Llama và GPT OSS. Đối với kiến trúc mô hình tùy chỉnh, bạn có thể tích hợp các thành phần đào tạo không cần điểm kiểm tra với các sửa đổi tối thiểu cho quy trình làm việc dựa trên PyTorch, giúp các nhóm của bạn có thể truy cập được bất kể chuyên môn đào tạo phân tán của họ.

Để bắt đầu, hãy truy cập trang sản phẩm Amazon SageMaker HyperPod và xem trang GitHub đào tạo không cần điểm kiểm tra để biết hướng dẫn triển khai.