Suy luận của Amazon SageMaker

Dễ dàng triển khai và quản lý các mô hình máy học (ML) cho việc suy luận

Suy luận của Amazon SageMaker là gì?

Amazon SageMaker AI giúp triển khai các mô hình ML dễ dàng hơn, bao gồm mô hình nền tảng (FM) để tạo yêu cầu suy luận với tỷ lệ hiệu năng/giá tốt nhất cho mọi trường hợp sử dụng. Từ độ trễ thấp và thông lượng cao cho đến suy luận dài hạn, bạn đều có thể sử dụng SageMaker AI cho mọi nhu cầu suy luận của mình. SageMaker AI là một dịch vụ được quản lý toàn phần và tích hợp với các công cụ MLOps, vì vậy bạn có thể điều chỉnh quy mô triển khai mô hình, giảm chi phí suy luận, quản lý mô hình hiệu quả hơn trong môi trường sản xuất và giảm bớt gánh nặng vận hành.

Lợi ích của Suy luận SageMaker

Nhiều tùy chọn suy luận

Suy luận theo thời gian thực

Dự đoán thời gian thực, có tính tương tác và độ trễ thấp cho các trường hợp sử dụng với các mô hình lưu lượng truy cập ổn định. Bạn có thể triển khai mô hình của mình đến một điểm cuối được quản lý đầy đủ và hỗ trợ tự động mở rộng.

Suy luận phi máy chủ

Độ trễ thấp và thông lượng cao cho các trường hợp sử dụng có các mẫu lưu lượng không liên tục. Các điểm cuối phi máy chủ tự động khởi chạy tài nguyên tính toán và điều chỉnh quy mô vào ra tùy thuộc vào lưu lượng truy cập, loại bỏ nhu cầu chọn loại phiên bản hoặc quản lý chính sách mở rộng quy mô.

Suy luận không đồng bộ

Độ trễ thấp cho các trường hợp sử dụng có phần dữ liệu truyền tải lớn (lên đến 1 GB) hoặc thời gian xử lý dài (lên đến một giờ) và yêu cầu độ trễ gần thời gian thực. Suy luận không đồng bộ giúp tiết kiệm chi phí bằng cách tự động mở rộng số lượng phiên bản thành 0 khi không có yêu cầu xử lý.

Chuyển đổi hàng loạt

Suy luận ngoại tuyến về lô dữ liệu cho các trường hợp sử dụng có tập dữ liệu lớn. Với Batch Transform, bạn có thể xử lý trước các tập dữ liệu để loại bỏ nhiễu hoặc sai lệch và liên kết các bản ghi đầu vào với các suy luận để giúp giải thích kết quả.

Các tùy chọn suy luận tiết kiệm chi phí và có khả năng mở rộng

Điểm cuối một mô hình

Một mô hình trên bộ chứa được lưu trữ trên các phiên bản chuyên dụng hoặc phi máy chủ để đạt được độ trễ thấp và thông lượng cao.

Tìm hiểu thêm

Điểm cuối một mô hình

Nhiều mô hình trên một điểm cuối

Lưu trữ nhiều mô hình vào cùng một phiên bản để sử dụng tốt hơn các bộ tăng tốc cơ bản, giảm lên đến 50% chi phí triển khai. Bạn có thể kiểm soát các chính sách điều chỉnh quy mô cho từng FM riêng biệt, giúp dễ dàng thích ứng với các kiểu sử dụng mô hình, đồng thời tối ưu hóa chi phí cơ sở hạ tầng.

Tìm hiểu thêm

Điểm cuối đa mô hình

Quy trình suy luận nối tiếp

Nhiều bộ chứa chia sẻ các phiên bản chuyên dụng và thực thi theo trình tự. Bạn có thể sử dụng một quy trình suy luận để kết hợp các tác vụ khoa học dữ liệu tiền xử lý, dự đoán và hậu xử lý.

Tìm hiểu thêm

Quy trình suy luận nối tiếp

Hỗ trợ hầu hết các khung máy học và máy chủ mô hình

Suy luận của Amazon SageMaker hỗ trợ các thuật toán tích hợp và hình ảnh Docker được xây dựng sẵn cho một số khung máy học phổ biến nhất như TensorFlow, PyTorch, ONNX và XGBoost. Nếu không có hình ảnh Docker được xây dựng sẵn nào phục vụ nhu cầu của bạn, bạn có thể xây dựng bộ chứa của riêng mình để sử dụng với các điểm cuối đa mô hình được hỗ trợ CPU. Suy luận của SageMaker hỗ trợ hầu hết các máy chủ mô hình phổ biến như TensorFlow Serving, TorchServe, NVIDIA Triton, máy chủ đa mô hình AWS.

Amazon SageMaker AI cung cấp các bộ chứa học sâu (DLC) chuyên dụng, thư viện và công cụ hỗ trợ tính song song mô hình và suy luận mô hình lớn (LMI) để giúp bạn cải thiện hiệu năng của các mô hình nền tảng. Với các tùy chọn này, bạn có thể triển khai các mô hình, bao gồm mô hình nền tảng (FM), một cách nhanh chóng cho hầu hết trường hợp sử dụng.


Tìm hiểu thêm
 

TensorFlow
PyTorch
mxnet
Biểu tượng của Hugging Face
TensorFlow

Đạt hiệu suất suy luận cao với mức chi phí thấp

Đạt hiệu suất suy luận cao với mức chi phí thấp

Bộ công cụ tối ưu hóa suy luận mới của Amazon SageMaker AI đem lại cho bạn thông lượng cao hơn tới ~2 lần trong khi giảm chi phí lên đến ~50% cho các mô hình AI tạo sinh như Llama 3, Mistral và Mixtral. Ví dụ: với mô hình Llama 3-70B, bạn có thể đạt tới ~2400 token/giây trên phiên bản ml.p5.48xlarge so với ~1200 token/giây trước đó mà không cần tối ưu hóa. Bạn có thể chọn kỹ thuật tối ưu hóa mô hình như Giải mã suy đoán, Lượng tử hóa và Biên dịch hoặc kết hợp nhiều kỹ thuật để áp dụng vào mô hình của bạn, chạy định chuẩn để đánh giá tác động của các kỹ thuật đó đối với chất lượng đầu ra và hiệu suất suy luận, cũng như triển khai mô hình chỉ trong vài cú nhấp chuột.

Hình ảnh hiển thị thông tin tổng quan về các chỉ số đánh giá

Triển khai mô hình trên cơ sở hạ tầng hiệu suất cao nhất hoặc triển khai phi máy chủ

Amazon SageMaker AI cung cấp hơn 70 loại phiên bản với các mức điện toán và bộ nhớ khác nhau, bao gồm các phiên bản Amazon EC2 Inf1 dựa trên AWS Inferentia, chip suy luận ML hiệu suất cao do AWS thiết kế và xây dựng, và các phiên bản GPU như Amazon EC2 G4dn. Hoặc, chọn Suy luận phi máy chủ của Amazon SageMaker để dễ dàng điều chỉnh quy mô lên hàng nghìn mô hình trên mỗi điểm cuối, thông lượng hàng triệu giao dịch mỗi giây (TPS) và độ trễ chung dưới 10 mili giây.

Một hình ảnh hiển thị các tính năng của chip suy luận ML

Kiểm thử trước phát hành để xác thực hiệu suất của các mô hình ML

Amazon SageMaker AI giúp bạn đánh giá một mô hình mới bằng cách kiểm thử trước phát hành hiệu suất của nó so với mô hình hiện đang được triển khai SageMaker bằng cách sử dụng các yêu cầu suy luận trực tiếp. Kiểm thử trước phát hành có thể giúp bạn phát hiện các lỗi cấu hình tiềm ẩn và các vấn đề về hiệu suất trước khi chúng tác động đến người dùng cuối. Với SageMaker AI, bạn không cần phải đầu tư hàng tuần thời gian để xây dựng cơ sở hạ tầng kiểm thử trước phát hành của riêng mình. Chỉ cần chọn một mô hình sản xuất mà bạn muốn kiểm thử và SageMaker AI sẽ tự động triển khai cho mô hình mới ở chế độ trước phát hành và định tuyến một bản sao của các yêu cầu suy luận mà mô hình sản xuất nhận được đến mô hình mới theo thời gian thực.

Một hình ảnh minh họa quá trình kiểm thử trước phát hành

Tự động điều chỉnh độ linh hoạt

Bạn có thể sử dụng các chính sách điều chỉnh quy mô để tự động mở rộng các tài nguyên điện toán cơ bản nhằm thích ứng với các biến động về yêu cầu suy luận. Bạn có thể kiểm soát các chính sách điều chỉnh quy mô cho từng mô hình ML riêng biệt để xử lý các thay đổi trong việc sử dụng mô hình một cách dễ dàng, đồng thời tối ưu hóa chi phí cơ sở hạ tầng.

Hình ảnh hiển thị các nhóm tự động điều chỉnh quy mô

Cải thiện độ trễ và định tuyến thông minh

Bạn có thể giảm độ trễ suy luận cho các mô hình ML bằng cách định tuyến thông minh các yêu cầu suy luận mới đến các phiên bản sẵn sàng thay vì định tuyến ngẫu nhiên yêu cầu đến các phiên bản đã bận phục vụ các yêu cầu suy luận, cho phép bạn đạt được độ trễ suy luận trung bình thấp hơn 20%.

Giảm gánh nặng vận hành và tăng thời gian tạo ra giá trị

Quản lý và lưu trữ mô hình được quản lý toàn phần

Là một dịch vụ được quản lý toàn phần, Amazon SageMaker AI đảm nhận việc thiết lập và quản lý các phiên bản, khả năng tương thích của phiên bản phần mềm và vá lỗi các phiên bản. Dịch vụ này cũng cung cấp các số liệu và nhật ký tích hợp cho các điểm cuối mà bạn có thể sử dụng để theo dõi và nhận cảnh báo.

Một hình ảnh thể hiện quy trình quản lý mô hình

Tích hợp sẵn với các tính năng MLops

Các tính năng triển khai mô hình Amazon SageMaker AI được tích hợp nguyên bản với các chức năng của MLOps, bao gồm SageMaker Pipelines (tự động hóa và điều phối quy trình làm việc), Dự án SageMaker (CI/CD cho ML), Kho tính năng của SageMaker (quản lý tính năng), Sổ đăng ký mô hình của SageMaker (danh mục mô hình và tạo tác để theo dõi dòng và hỗ trợ luồng công việc phê duyệt tự động), SageMaker Clarify (phát hiện sai lệch) và Trình giám sát mẫu của SageMaker (phát hiện sai lệch về mô hình và khái niệm). Do đó, cho dù bạn triển khai một mô hình hay hàng chục nghìn mô hình, SageMaker AI giúp giảm chi phí hoạt động của việc triển khai, mở rộng và quản lý các mô hình ML đồng thời đưa chúng vào sản xuất nhanh hơn.

Hình ảnh hiển thị biểu đồ tiến trình của hoạt động Đào tạo mô hình