Công bố trình đào tạo vận hành Amazon SageMaker HyperPod
Hôm nay, chúng tôi thông báo cung cấp rộng rãi trình vận hành đào tạo Amazon SageMaker HyperPod, một tiện ích mở rộng Kubernetes chuyên dụng để đào tạo mô hình nền tảng linh hoạt trên HyperPod.
Amazon SageMaker HyperPod cho phép khách hàng tăng tốc phát triển mô hình AI trên hàng trăm hoặc hàng nghìn GPU với khả năng phục hồi tích hợp, giảm thời gian đào tạo mô hình lên đến 40%. Khi các cụm đào tạo mở rộng, khả năng phục hồi sau khi bị gián đoạn đào tạo trở nên ngày càng rắc rối. Thông thường, quá trình phục hồi sau lỗi đòi hỏi phải khởi động lại toàn bộ tác vụ trên tất cả các nút ngay cả khi chỉ có một quy trình đào tạo không thành công, dẫn đến tăng thời gian ngừng hoạt động và tăng chi phí. Hơn nữa, việc xác định và giải quyết các vấn đề đào tạo quan trọng như GPU bị treo, thông lượng đào tạo thấp và sự bất ổn số học, thường cần đến mã giám sát tùy chỉnh phức tạp, kéo dài thêm thời gian phát triển và trì hoãn thời gian đưa ra thị trường.
Với trình vận hành đào tạo HyperPod, khách hàng có thể nâng cao hơn nữa khả năng phục hồi đào tạo cho khối lượng công việc Kubernetes. Thay vì khởi động lại toàn bộ tác vụ khi xảy ra lỗi, trình vận hành đào tạo HyperPod thực hiện phục hồi giải phẫu, chỉ khởi động lại một cách chọn lọc các tài nguyên đào tạo bị ảnh hưởng để phục hồi nhanh hơn sau khi gặp lỗi. Tính năng này cũng giới thiệu khả năng giám sát tác vụ treo có thể tùy chỉnh để giúp khắc phục các tình huống đào tạo có vấn đề, bao gồm các đợt đào tạo bị đình trệ, giá trị tổn thất không phải dạng số và sự suy giảm hiệu suất thông qua các cấu hình YAML đơn giản. Cách thức bắt đầu rất đơn giản: tạo cụm HyperPod, cài đặt tiện ích bổ sung trình vận hành đào tạo, xác định chính sách khôi phục tùy chỉnh theo tùy chọn cho các tác vụ treo, rồi khởi chạy đào tạo.
Bản phát hành này được cung cấp rộng rãi ở tất cả các Khu vực AWS hiện đang hỗ trợ SageMaker HyperPod.
Xem tài liệu để tìm hiểu thêm.