Đào tạo mô hình SageMaker là gì?
Đào tạo mô hình Amazon SageMaker giúp giảm thời gian và chi phí đào tạo đồng thời điều chỉnh các mô hình máy học (ML) trên quy mô lớn mà không cần quản lý cơ sở hạ tầng. Bạn có thể tận dụng cơ sở hạ tầng điện toán ML hiệu năng cao nhất hiện có và Amazon SageMaker AI có thể tự động điều chỉnh quy mô cơ sở hạ tầng tăng hoặc giảm, từ một đến hàng nghìn GPU. Để đào tạo các mô hình học sâu nhanh hơn, SageMaker AI giúp bạn chọn và tinh chỉnh các tập dữ liệu trong thời gian thực. Thư viện đào tạo phân tán SageMaker có thể tự động phân chia các mô hình lớn và tập dữ liệu đào tạo trên các phiên bản GPU AWS hoặc bạn có thể sử dụng thư viện của bên thứ ba, chẳng hạn như DeepSpeed, Horovod hoặc Megatron. Đào tạo các mô hình nền tảng (FM) trong nhiều tuần và nhiều tháng mà không bị gián đoạn bằng cách tự động theo dõi và sửa chữa các cụm đào tạo.
Lợi ích của hoạt động đào tạo tiết kiệm chi phí
Mô hình đào tạo theo quy mô
Tác vụ đào tạo được quản lý toàn phần
Tác vụ đào tạo của SageMaker mang đến trải nghiệm người dùng được quản lý toàn phần cho hoạt động đào tạo FM phân tán lớn, loại bỏ phần công việc nặng nhọc, lặp lại xung quanh việc quản lý cơ sở hạ tầng. Tác vụ đào tạo của SageMaker tự động khởi động một cụm đào tạo phân tán có khả năng phục hồi mạnh, giám sát cơ sở hạ tầng và tự động phục hồi sau khi xảy ra lỗi để đảm bảo trải nghiệm đào tạo mượt mà. Sau khi hoàn tất đào tạo, SageMaker sẽ chấm dứt cụm và bạn sẽ được tính phí cho thời gian đào tạo thực tế. Ngoài ra, với tác vụ đào tạo của SageMaker, bạn có thể linh hoạt chọn loại phiên bản phù hợp nhất với từng khối lượng công việc đơn lẻ (ví dụ: đào tạo trước mô hình ngôn ngữ lớn (LLM) trên cụm P5 hoặc tinh chỉnh LLM nguồn mở trên phiên bản p4d) để tối ưu hóa hơn nữa ngân sách đào tạo. Ngoài ra, tác vụ đào tạo của SagerMaker cũng cung cấp trải nghiệm người dùng nhất quán trên toàn đội ngũ ML có mức độ chuyên môn kỹ thuật khác nhau và loại khối lượng công việc khác nhau.
SageMaker HyperPod
Amazon SageMaker HyperPod là một cơ sở hạ tầng được xây dựng có mục đích để quản lý hiệu quả các cụm điện toán nhằm điều chỉnh quy mô phát triển mô hình nền tảng (FM). Cơ sở hạ tầng này cho phép áp dụng các kỹ thuật đào tạo mô hình tiên tiến, kiểm soát cơ sở hạ tầng, tối ưu hóa hiệu năng và khả năng quan sát mô hình nâng cao. Vì SageMaker HyperPod được cấu hình sẵn với các thư viện đào tạo phân tán của SageMaker nên bạn có thể tự động phân chia mô hình và tập dữ liệu đào tạo của mình ra các phiên bản cụm AWS để tận dụng cơ sở hạ tầng điện toán và mạng của cụm một cách hiệu quả. Cơ sở hạ tầng này mang đến môi trường có khả năng phục hồi mạnh hơn bằng cách tự động phát hiện, chẩn đoán và phục hồi sau khi xảy ra lỗi phần cứng, qua đó giúp bạn liên tục đào tạo các mô hình nền tảng (FM) trong nhiều tháng mà không bị gián đoạn, giúp giảm thời gian đào tạo lên tới 40%.
Đào tạo phân tán có hiệu suất cao
SageMaker AI giúp thực hiện đào tạo phân tán nhanh hơn bằng cách tự động chia tách các mô hình và tập dữ liệu đào tạo của bạn trên các trình tăng tốc của AWS. SageMaker AI giúp bạn tối ưu hóa tác vụ đào tạo cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm. SageMaker AI cũng hợp lý hóa việc kiểm tra có điểm lưu đối với mô hình theo công thức bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí ở mức tối thiểu trong quá trình đào tạo. Nhờ có công thức, các nhà khoa học dữ liệu và nhà phát triển thuộc các trình độ kỹ năng khác nhau sẽ hưởng lợi từ hiệu năng tối tân, đồng thời nhanh chóng bắt đầu đào tạo và tinh chỉnh các mô hình AI tạo sinh được cung cấp công khai, bao gồm Llama 3.1 405B, Mixtral 8x22B và Mistral 7B. Các công thức bao gồm một ngăn xếp đào tạo đã được AWS thử nghiệm, loại bỏ hàng tuần công việc tẻ nhạt nhằm thử nghiệm các cấu hình mô hình khác nhau. Bạn có thể chuyển đổi giữa phiên bản chạy trên GPU và phiên bản chạy trên AWS Trainium bằng cách thay đổi công thức một dòng và bật tính năng tự động kiểm tra có điểm lưu đối với mô hình để cải thiện khả năng phục hồi trong quá trình đào tạo. Ngoài ra, hãy chạy khối lượng công việc trong môi trường sản xuất bằng tính năng đào tạo SageMaker mà bạn chọn.
Các công cụ tích hợp cho độ chính xác cao nhất và chi phí thấp nhất
Điều chỉnh mô hình tự động
SageMaker AI có thể tự động điều chỉnh mô hình của bạn bằng cách điều chỉnh hàng nghìn tổ hợp tham số thuật toán để đưa ra dự đoán chính xác nhất, tiết kiệm hàng tuần nỗ lực. Nó giúp bạn tìm phiên bản tốt nhất của một mô hình bằng cách chạy nhiều công việc đào tạo trên tập dữ liệu của bạn.

Đào tạo tại chỗ được quản lý
SageMaker AI giúp giảm chi phí đào tạo lên đến 90% bằng cách tự động chạy các tác vụ đào tạo khi có sẵn công suất điện toán. Những công việc đào tạo này cũng có khả năng chống gián đoạn do thay đổi về công suất gây ra.
Gỡ lỗi
Trình gỡ lỗi của Amazon SageMaker thu thập số liệu và cấu hình các công việc đào tạo theo thời gian thực, vì vậy bạn có thể nhanh chóng khắc phục các vấn đề về hiệu suất trước khi triển khai mô hình vào sản xuất. Bạn cũng có thể kết nối từ xa với môi trường đào tạo mô hình trong SageMaker để gỡ lỗi với quyền truy cập vào bộ chứa đào tạo cơ bản.

Trình phân tích

Các công cụ tích hợp dùng để tương tác và giám sát
Amazon SageMaker với MLflow
Sử dụng MLflow với đào tạo SageMaker để nắm bắt các thông số đầu vào, cấu hình và kết quả, giúp bạn nhanh chóng xác định các mô hình hoạt động tốt nhất cho trường hợp sử dụng của bạn. Giao diện người dùng MLflow cho phép bạn phân tích các lần đào tạo mô hình và dễ dàng đăng ký các mô hình ứng viên cho môi trường sản xuất trong một bước nhanh chóng.

Amazon SageMaker với TensorBoard
Amazon SageMaker với TensorBoard giúp bạn tiết kiệm thời gian phát triển bằng cách trực quan hóa kiến trúc mô hình để xác định và khắc phục các vấn đề hội tụ, chẳng hạn như tổn thất xác thực không hội tụ hoặc gradient biến mất.

Đào tạo linh hoạt và nhanh chóng hơn
Tùy chỉnh đầy đủ
SageMaker AI đi kèm với các thư viện và công cụ tích hợp sẵn để giúp việc đào tạo mô hình trở nên dễ dàng và nhanh hơn. SageMaker AI hoạt động với các mô hình ML nguồn mở phổ biến như GPT, BERT và DALL·E; các khung ML, chẳng hạn như PyTorch và TensorFlow; và các bộ chuyển đổi, chẳng hạn như Hugging Face. Với SageMaker AI, bạn có thể sử dụng các thư viện và công cụ nguồn mở phổ biến, chẳng hạn như DeepSpeed, Megatron, Horovod, Ray Tune và TensorBoard, dựa trên nhu cầu của bạn.

Chuyển đổi mã cục bộ
Amazon SageMaker Python SDK giúp bạn chạy mã ML được tạo trong môi trường phát triển tích hợp (IDE) và sổ tay cục bộ ưa thích của bạn cùng với các phần phụ thuộc thời gian hoạt động liên quan dưới dạng các công việc đào tạo mô hình ML quy mô lớn mà gần như không thay đổi mã. Bạn chỉ cần thêm một dòng mã (hàm trang trí Python) vào mã ML cục bộ của bạn. SageMaker Python SDK lấy mã cùng với tập dữ liệu và thiết lập môi trường không gian làm việc rồi chạy dưới dạng tác vụ đào tạo SageMaker.
Quy trình đào tạo ML tự động
Việc tự động hóa quy trình đào tạo bằng Quy trình của Amazon SageMaker giúp bạn tạo quy trình lặp lại để sắp xếp các bước phát triển mô hình nhằm nhanh chóng thử nghiệm và đào tạo lại mô hình. Bạn có thể tự động chạy các bước theo khoảng thời gian đều đặn hay khi một số sự kiện nhất định được bắt đầu hoặc bạn có thể chạy chúng theo cách thủ công khi cần thiết.
Kế hoạch đào tạo linh hoạt
Để đáp ứng lịch trình và ngân sách đào tạo của bạn, SageMaker AI giúp bạn tạo các kế hoạch đào tạo tiết kiệm chi phí nhất, trong đó sử dụng tài nguyên điện toán từ nhiều khối dung lượng điện toán. Sau khi bạn phê duyệt kế hoạch đào tạo, SageMaker AI sẽ tự động cung cấp cơ sở hạ tầng và chạy các tác vụ đào tạo trên các tài nguyên điện toán này mà không cần bất kỳ thao tác can thiệp thủ công nào, tiết kiệm hàng tuần nỗ lực quản lý quy trình đào tạo để điều chỉnh các tác vụ theo độ sẵn sàng của tài nguyên điện toán.
Tài nguyên
Thông tin mới
Total results: 5
- Ngày (Từ mới nhất đến cũ nhất)
-
20/12/2023
-
29/11/2023
-
15/07/2022
-
08/07/2022
-
10/06/2022