Đào tạo mô hình Amazon SageMaker

Đào tạo và tinh chỉnh mô hình ML và mô hình AI tạo sinh

Đào tạo mô hình SageMaker là gì?

Đào tạo mô hình Amazon SageMaker giúp giảm thời gian và chi phí đào tạo đồng thời điều chỉnh các mô hình máy học (ML) trên quy mô lớn mà không cần quản lý cơ sở hạ tầng. Bạn có thể tận dụng cơ sở hạ tầng điện toán ML hiệu năng cao nhất hiện có và Amazon SageMaker AI có thể tự động điều chỉnh quy mô cơ sở hạ tầng tăng hoặc giảm, từ một đến hàng nghìn GPU. Để đào tạo các mô hình học sâu nhanh hơn, SageMaker AI giúp bạn chọn và tinh chỉnh các tập dữ liệu trong thời gian thực. Thư viện đào tạo phân tán SageMaker có thể tự động phân chia các mô hình lớn và tập dữ liệu đào tạo trên các phiên bản GPU AWS hoặc bạn có thể sử dụng thư viện của bên thứ ba, chẳng hạn như DeepSpeed, Horovod hoặc Megatron. Đào tạo các mô hình nền tảng (FM) trong nhiều tuần và nhiều tháng mà không bị gián đoạn bằng cách tự động theo dõi và sửa chữa các cụm đào tạo.

Lợi ích của hoạt động đào tạo tiết kiệm chi phí

SageMaker AI cung cấp nhiều lựa chọn về GPU, CPU cũng như các trình tăng tốc AWS như AWS Trainium và AWS Inferentia để hỗ trợ việc đào tạo mô hình trên quy mô lớn. Bạn tự động thay đổi quy mô cơ sở hạ tầng, từ một đến hàng nghìn GPU.
SageMaker AI cho phép bạn tự động phân chia mô hình và tập dữ liệu đào tạo của mình trên các phiên bản cụm AWS để giúp bạn điều chỉnh quy mô khối lượng công việc đào tạo một cách hiệu quả. SageMaker AI giúp bạn tối ưu hóa tác vụ đào tạo cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm. Bạn cũng có thể sử dụng các công thức được tối ưu hóa để hưởng lợi từ hiệu năng tối tân và nhanh chóng bắt đầu đào tạo và tinh chỉnh các mô hình AI tạo sinh được cung cấp công khai trong vài phút. SageMaker AI cũng hợp lý hóa việc kiểm tra có điểm lưu đối với mô hình theo công thức bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí ở mức tối thiểu trong quá trình đào tạo.
SageMaker AI có thể tự động điều chỉnh mô hình của bạn bằng cách điều chỉnh hàng nghìn tổ hợp tham số thuật toán để đưa ra dự đoán chính xác nhất. Sử dụng các công cụ gỡ lỗi và phân tích hiệu suất để nhanh chóng khắc phục các vấn đề về hiệu suất và tối ưu hóa hiệu suất đào tạo.
SageMaker AI cho phép thử nghiệm ML hiệu quả để giúp bạn theo dõi các lần lặp mô hình ML dễ dàng hơn. Cải thiện hiệu suất đào tạo về mô hình bằng cách trực quan hóa kiến trúc mô hình để xác định và khắc phục các lỗi hội tụ.

Mô hình đào tạo theo quy mô

Tác vụ đào tạo được quản lý toàn phần

Tác vụ đào tạo của SageMaker mang đến trải nghiệm người dùng được quản lý toàn phần cho hoạt động đào tạo FM phân tán lớn, loại bỏ phần công việc nặng nhọc, lặp lại xung quanh việc quản lý cơ sở hạ tầng. Tác vụ đào tạo của SageMaker tự động khởi động một cụm đào tạo phân tán có khả năng phục hồi mạnh, giám sát cơ sở hạ tầng và tự động phục hồi sau khi xảy ra lỗi để đảm bảo trải nghiệm đào tạo mượt mà. Sau khi hoàn tất đào tạo, SageMaker sẽ chấm dứt cụm và bạn sẽ được tính phí cho thời gian đào tạo thực tế. Ngoài ra, với tác vụ đào tạo của SageMaker, bạn có thể linh hoạt chọn loại phiên bản phù hợp nhất với từng khối lượng công việc đơn lẻ (ví dụ: đào tạo trước mô hình ngôn ngữ lớn (LLM) trên cụm P5 hoặc tinh chỉnh LLM nguồn mở trên phiên bản p4d) để tối ưu hóa hơn nữa ngân sách đào tạo. Ngoài ra, tác vụ đào tạo của SagerMaker cũng cung cấp trải nghiệm người dùng nhất quán trên toàn đội ngũ ML có mức độ chuyên môn kỹ thuật khác nhau và loại khối lượng công việc khác nhau.

Tìm hiểu thêm

SageMaker HyperPod

Amazon SageMaker HyperPod là một cơ sở hạ tầng được xây dựng có mục đích để quản lý hiệu quả các cụm điện toán nhằm điều chỉnh quy mô phát triển mô hình nền tảng (FM). Cơ sở hạ tầng này cho phép áp dụng các kỹ thuật đào tạo mô hình tiên tiến, kiểm soát cơ sở hạ tầng, tối ưu hóa hiệu năng và khả năng quan sát mô hình nâng cao. Vì SageMaker HyperPod được cấu hình sẵn với các thư viện đào tạo phân tán của SageMaker nên bạn có thể tự động phân chia mô hình và tập dữ liệu đào tạo của mình ra các phiên bản cụm AWS để tận dụng cơ sở hạ tầng điện toán và mạng của cụm một cách hiệu quả. Cơ sở hạ tầng này mang đến môi trường có khả năng phục hồi mạnh hơn bằng cách tự động phát hiện, chẩn đoán và phục hồi sau khi xảy ra lỗi phần cứng, qua đó giúp bạn liên tục đào tạo các mô hình nền tảng (FM) trong nhiều tháng mà không bị gián đoạn, giúp giảm thời gian đào tạo lên tới 40%.

Tìm hiểu thêm

Đào tạo phân tán có hiệu suất cao

SageMaker AI giúp thực hiện đào tạo phân tán nhanh hơn bằng cách tự động chia tách các mô hình và tập dữ liệu đào tạo của bạn trên các trình tăng tốc của AWS. SageMaker AI giúp bạn tối ưu hóa tác vụ đào tạo cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm. SageMaker AI cũng hợp lý hóa việc kiểm tra có điểm lưu đối với mô hình theo công thức bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí ở mức tối thiểu trong quá trình đào tạo. Nhờ có công thức, các nhà khoa học dữ liệu và nhà phát triển thuộc các trình độ kỹ năng khác nhau sẽ hưởng lợi từ hiệu năng tối tân, đồng thời nhanh chóng bắt đầu đào tạo và tinh chỉnh các mô hình AI tạo sinh được cung cấp công khai, bao gồm Llama 3.1 405B, Mixtral 8x22B và Mistral 7B. Các công thức bao gồm một ngăn xếp đào tạo đã được AWS thử nghiệm, loại bỏ hàng tuần công việc tẻ nhạt nhằm thử nghiệm các cấu hình mô hình khác nhau. Bạn có thể chuyển đổi giữa phiên bản chạy trên GPU và phiên bản chạy trên AWS Trainium bằng cách thay đổi công thức một dòng và bật tính năng tự động kiểm tra có điểm lưu đối với mô hình để cải thiện khả năng phục hồi trong quá trình đào tạo. Ngoài ra, hãy chạy khối lượng công việc trong môi trường sản xuất bằng tính năng đào tạo SageMaker mà bạn chọn.

Tìm hiểu thêm

Các công cụ tích hợp cho độ chính xác cao nhất và chi phí thấp nhất

Điều chỉnh mô hình tự động

SageMaker AI có thể tự động điều chỉnh mô hình của bạn bằng cách điều chỉnh hàng nghìn tổ hợp tham số thuật toán để đưa ra dự đoán chính xác nhất, tiết kiệm hàng tuần nỗ lực. Nó giúp bạn tìm phiên bản tốt nhất của một mô hình bằng cách chạy nhiều công việc đào tạo trên tập dữ liệu của bạn.

Quy trình đào tạo ML

Đào tạo tại chỗ được quản lý

SageMaker AI giúp giảm chi phí đào tạo lên đến 90% bằng cách tự động chạy các tác vụ đào tạo khi có sẵn công suất điện toán. Những công việc đào tạo này cũng có khả năng chống gián đoạn do thay đổi về công suất gây ra.

Tìm hiểu thêm

Gỡ lỗi

Trình gỡ lỗi của Amazon SageMaker thu thập số liệu và cấu hình các công việc đào tạo theo thời gian thực, vì vậy bạn có thể nhanh chóng khắc phục các vấn đề về hiệu suất trước khi triển khai mô hình vào sản xuất. Bạn cũng có thể kết nối từ xa với môi trường đào tạo mô hình trong SageMaker để gỡ lỗi với quyền truy cập vào bộ chứa đào tạo cơ bản.

Điều chỉnh mô hình tự động

Trình phân tích

Trình phân tích của Amazon SageMaker giúp bạn tối ưu hóa hiệu suất đào tạo với thông tin chi tiết về cấu hình phần cứng chi tiết bao gồm các chỉ số sử dụng GPU và CPU tổng hợp, biểu đồ theo dõi GPU/CPU có độ phân giải cao, chú thích tùy chỉnh và khả năng hiển thị hoạt động sử dụng với độ chính xác hỗn hợp.
Đào tạo tại chỗ được quản lý