Công bố tính năng tạo điểm kiểm tra theo bậc được quản lý cho Amazon SageMaker HyperPod
Hôm nay, Amazon Web Service (AWS) công bố về việc cung cấp rộng rãi tính năng tạo điểm kiểm tra theo bậc được quản lý cho Amazon SageMaker HyperPod. Đây là một tính năng mới với thiết kế nhằm giảm thời gian phục hồi mô hình và giảm thiểu tổn thất trong quá trình đào tạo. Khi việc đào tạo AI điều chỉnh quy mô, khả năng cơ sở hạ tầng xảy ra lỗi sẽ tăng lên, khiến việc tạo điểm kiểm tra hiệu quả trở nên quan trọng. Các phương pháp tạo điểm kiểm tra truyền thống có thể chậm và tốn nhiều tài nguyên, đặc biệt là đối với các mô hình lớn. Tính năng tạo điểm kiểm tra theo bậc được quản lý của SageMaker HyperPod giải quyết vấn đề này bằng cách sử dụng bộ nhớ CPU để lưu trữ các điểm kiểm tra thường xuyên nhằm phục hồi nhanh chóng, đồng thời lưu giữ dữ liệu định kỳ vào Amazon S3 để có được độ bền lâu dài. Phương pháp tiếp cận kết hợp này giảm thiểu tổn thất đào tạo và giảm đáng kể thời gian trở lại đào tạo sau khi gặp lỗi.
Nhờ tính năng tạo điểm kiểm tra theo bậc được quản lý, các tổ chức có thể đào tạo một cách đáng tin cậy, với thông lượng cao trên các cụm quy mô lớn. Giải pháp này giúp khách hàng cấu hình chính sách lưu giữ và tần suất tạo điểm kiểm tra trên cả bậc kho lưu trữ nằm trong bộ nhớ và bậc kho lưu trữ lâu dài. Bằng cách thường xuyên lưu trữ trong bộ nhớ, khách hàng có thể phục hồi nhanh chóng, đồng thời giảm thiểu chi phí lưu trữ. Vì tính năng này tích hợp với Điểm kiểm tra phân tán (DCP) của PyTorch, khách hàng có thể dễ dàng tạo điểm kiểm tra chỉ với một vài dòng mã, đồng thời đạt được lợi ích về hiệu năng của kho lưu trữ nằm trong bộ nhớ.
Tính năng này hiện được cung cấp cho các cụm SageMaker HyperPod sử dụng trình điều phối EKS. Khách hàng có thể bật tính năng tạo điểm kiểm tra theo bậc được quản lý bằng cách chỉ định thông số API khi tạo hoặc cập nhật một cụm HyperPod thông qua API CreateCluster hoặc UpdateCluster. Sau đó, khách hàng có thể sử dụng thư viện python sagemaker-checkpointing để tạo điểm kiểm tra theo bậc được quản lý mà chỉ cần thay đổi tối thiểu mã trong tập lệnh đào tạo của họ.
Tính năng tạo điểm kiểm tra theo bậc được quản lý được cung cấp ở tất cả các khu vực hiện có sẵn SageMaker HyperPod. Để tìm hiểu thêm, vui lòng tham khảo bài đăng trên blog và tài liệu.