Đào tạo mô hình Amazon SageMaker

Đào tạo và tinh chỉnh mô hình ML và mô hình AI tạo sinh

Đào tạo mô hình SageMaker là gì?

Đào tạo mô hình Amazon SageMaker giúp giảm thời gian và chi phí đào tạo đồng thời điều chỉnh các mô hình máy học (ML) trên quy mô lớn mà không cần quản lý cơ sở hạ tầng. Bạn có thể tận dụng cơ sở hạ tầng điện toán ML hiệu năng cao nhất hiện có và Amazon SageMaker AI có thể tự động điều chỉnh quy mô cơ sở hạ tầng tăng hoặc giảm, từ một đến hàng nghìn GPU. Để đào tạo các mô hình học sâu nhanh hơn, SageMaker AI giúp bạn chọn và tinh chỉnh các tập dữ liệu trong thời gian thực. Thư viện đào tạo phân tán SageMaker có thể tự động phân chia các mô hình lớn và tập dữ liệu đào tạo trên các phiên bản GPU AWS hoặc bạn có thể sử dụng thư viện của bên thứ ba, chẳng hạn như DeepSpeed, Horovod hoặc Megatron. Đào tạo các mô hình nền tảng (FM) trong nhiều tuần và nhiều tháng mà không bị gián đoạn bằng cách tự động theo dõi và sửa chữa các cụm đào tạo.

Amazon SageMaker MLOps

Lợi ích của hoạt động đào tạo tiết kiệm chi phí

Cơ sở hạ tầng được quản lý cho việc đào tạo trên quy mô lớn và tiết kiệm chi phí

Đào tạo phân tán có hiệu suất cao

Các công cụ tích hợp cho độ chính xác cao nhất và chi phí thấp nhất

Các công cụ tích hợp dùng để tương tác và giám sát

Mô hình đào tạo theo quy mô

Tác vụ đào tạo được quản lý toàn phần

Tác vụ đào tạo của SageMaker mang đến trải nghiệm người dùng được quản lý toàn phần cho hoạt động đào tạo FM phân tán lớn, loại bỏ phần công việc nặng nhọc, lặp lại xung quanh việc quản lý cơ sở hạ tầng. Tác vụ đào tạo của SageMaker tự động khởi động một cụm đào tạo phân tán có khả năng phục hồi mạnh, giám sát cơ sở hạ tầng và tự động phục hồi sau khi xảy ra lỗi để đảm bảo trải nghiệm đào tạo mượt mà. Sau khi hoàn tất đào tạo, SageMaker sẽ chấm dứt cụm và bạn sẽ được tính phí cho thời gian đào tạo thực tế. Ngoài ra, với tác vụ đào tạo của SageMaker, bạn có thể linh hoạt chọn loại phiên bản phù hợp nhất với từng khối lượng công việc đơn lẻ (ví dụ: đào tạo trước mô hình ngôn ngữ lớn (LLM) trên cụm P5 hoặc tinh chỉnh LLM nguồn mở trên phiên bản p4d) để tối ưu hóa hơn nữa ngân sách đào tạo. Ngoài ra, tác vụ đào tạo của SagerMaker cũng cung cấp trải nghiệm người dùng nhất quán trên toàn đội ngũ ML có mức độ chuyên môn kỹ thuật khác nhau và loại khối lượng công việc khác nhau.

Tìm hiểu thêm

SageMaker HyperPod

Amazon SageMaker HyperPod là một cơ sở hạ tầng được xây dựng có mục đích để quản lý hiệu quả các cụm điện toán nhằm điều chỉnh quy mô phát triển mô hình nền tảng (FM). Cơ sở hạ tầng này cho phép áp dụng các kỹ thuật đào tạo mô hình tiên tiến, kiểm soát cơ sở hạ tầng, tối ưu hóa hiệu năng và khả năng quan sát mô hình nâng cao. Vì SageMaker HyperPod được cấu hình sẵn với các thư viện đào tạo phân tán của SageMaker nên bạn có thể tự động phân chia mô hình và tập dữ liệu đào tạo của mình ra các phiên bản cụm AWS để tận dụng cơ sở hạ tầng điện toán và mạng của cụm một cách hiệu quả. Cơ sở hạ tầng này mang đến môi trường có khả năng phục hồi mạnh hơn bằng cách tự động phát hiện, chẩn đoán và phục hồi sau khi xảy ra lỗi phần cứng, qua đó giúp bạn liên tục đào tạo các mô hình nền tảng (FM) trong nhiều tháng mà không bị gián đoạn, giúp giảm thời gian đào tạo lên tới 40%.

Tìm hiểu thêm

Đào tạo phân tán có hiệu suất cao

SageMaker AI giúp thực hiện đào tạo phân tán nhanh hơn bằng cách tự động chia tách các mô hình và tập dữ liệu đào tạo của bạn trên các trình tăng tốc của AWS. SageMaker AI giúp bạn tối ưu hóa tác vụ đào tạo cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm. SageMaker AI cũng hợp lý hóa việc kiểm tra có điểm lưu đối với mô hình theo công thức bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí ở mức tối thiểu trong quá trình đào tạo. Nhờ có công thức, các nhà khoa học dữ liệu và nhà phát triển thuộc các trình độ kỹ năng khác nhau sẽ hưởng lợi từ hiệu năng tối tân, đồng thời nhanh chóng bắt đầu đào tạo và tinh chỉnh các mô hình AI tạo sinh được cung cấp công khai, bao gồm Llama 3.1 405B, Mixtral 8x22B và Mistral 7B. Các công thức bao gồm một ngăn xếp đào tạo đã được AWS thử nghiệm, loại bỏ hàng tuần công việc tẻ nhạt nhằm thử nghiệm các cấu hình mô hình khác nhau. Bạn có thể chuyển đổi giữa phiên bản chạy trên GPU và phiên bản chạy trên AWS Trainium bằng cách thay đổi công thức một dòng và bật tính năng tự động kiểm tra có điểm lưu đối với mô hình để cải thiện khả năng phục hồi trong quá trình đào tạo. Ngoài ra, hãy chạy khối lượng công việc trong môi trường sản xuất bằng tính năng đào tạo SageMaker mà bạn chọn.

Tìm hiểu thêm

Các công cụ tích hợp dùng để tương tác và giám sát

Amazon SageMaker với MLflow

Sử dụng MLflow với đào tạo SageMaker để nắm bắt các thông số đầu vào, cấu hình và kết quả, giúp bạn nhanh chóng xác định các mô hình hoạt động tốt nhất cho trường hợp sử dụng của bạn. Giao diện người dùng MLflow cho phép bạn phân tích các lần đào tạo mô hình và dễ dàng đăng ký các mô hình ứng viên cho môi trường sản xuất trong một bước nhanh chóng.

Tìm hiểu thêm

Amazon SageMaker với TensorBoard

Amazon SageMaker với TensorBoard giúp bạn tiết kiệm thời gian phát triển bằng cách trực quan hóa kiến trúc mô hình để xác định và khắc phục các vấn đề hội tụ, chẳng hạn như tổn thất xác thực không hội tụ hoặc gradient biến mất.

Tìm hiểu thêm