Suy luận của Amazon SageMaker là gì?
Amazon SageMaker AI giúp triển khai các mô hình ML dễ dàng hơn, bao gồm mô hình nền tảng (FM) để tạo yêu cầu suy luận với tỷ lệ hiệu năng/giá tốt nhất cho mọi trường hợp sử dụng. Từ độ trễ thấp và thông lượng cao cho đến suy luận dài hạn, bạn đều có thể sử dụng SageMaker AI cho mọi nhu cầu suy luận của mình. SageMaker AI là một dịch vụ được quản lý toàn phần và tích hợp với các công cụ MLOps, vì vậy bạn có thể điều chỉnh quy mô triển khai mô hình, giảm chi phí suy luận, quản lý mô hình hiệu quả hơn trong môi trường sản xuất và giảm bớt gánh nặng vận hành.
Lợi ích của Suy luận SageMaker
Nhiều tùy chọn suy luận
Suy luận theo thời gian thực
Suy luận phi máy chủ
Suy luận không đồng bộ
Chuyển đổi hàng loạt
Các tùy chọn suy luận tiết kiệm chi phí và có khả năng mở rộng
Điểm cuối một mô hình
Một mô hình trên bộ chứa được lưu trữ trên các phiên bản chuyên dụng hoặc phi máy chủ để đạt được độ trễ thấp và thông lượng cao.

Nhiều mô hình trên một điểm cuối
Lưu trữ nhiều mô hình vào cùng một phiên bản để sử dụng tốt hơn các bộ tăng tốc cơ bản, giảm lên đến 50% chi phí triển khai. Bạn có thể kiểm soát các chính sách điều chỉnh quy mô cho từng FM riêng biệt, giúp dễ dàng thích ứng với các kiểu sử dụng mô hình, đồng thời tối ưu hóa chi phí cơ sở hạ tầng.

Quy trình suy luận nối tiếp
Nhiều bộ chứa chia sẻ các phiên bản chuyên dụng và thực thi theo trình tự. Bạn có thể sử dụng một quy trình suy luận để kết hợp các tác vụ khoa học dữ liệu tiền xử lý, dự đoán và hậu xử lý.

Hỗ trợ hầu hết các khung máy học và máy chủ mô hình
Suy luận của Amazon SageMaker hỗ trợ các thuật toán tích hợp và hình ảnh Docker được xây dựng sẵn cho một số khung máy học phổ biến nhất như TensorFlow, PyTorch, ONNX và XGBoost. Nếu không có hình ảnh Docker được xây dựng sẵn nào phục vụ nhu cầu của bạn, bạn có thể xây dựng bộ chứa của riêng mình để sử dụng với các điểm cuối đa mô hình được hỗ trợ CPU. Suy luận của SageMaker hỗ trợ hầu hết các máy chủ mô hình phổ biến như TensorFlow Serving, TorchServe, NVIDIA Triton, máy chủ đa mô hình AWS.
Amazon SageMaker AI cung cấp các bộ chứa học sâu (DLC) chuyên dụng, thư viện và công cụ hỗ trợ tính song song mô hình và suy luận mô hình lớn (LMI) để giúp bạn cải thiện hiệu năng của các mô hình nền tảng. Với các tùy chọn này, bạn có thể triển khai các mô hình, bao gồm mô hình nền tảng (FM), một cách nhanh chóng cho hầu hết trường hợp sử dụng.





Đạt hiệu suất suy luận cao với mức chi phí thấp
Đạt hiệu suất suy luận cao với mức chi phí thấp
Bộ công cụ tối ưu hóa suy luận mới của Amazon SageMaker AI đem lại cho bạn thông lượng cao hơn tới ~2 lần trong khi giảm chi phí lên đến ~50% cho các mô hình AI tạo sinh như Llama 3, Mistral và Mixtral. Ví dụ: với mô hình Llama 3-70B, bạn có thể đạt tới ~2400 token/giây trên phiên bản ml.p5.48xlarge so với ~1200 token/giây trước đó mà không cần tối ưu hóa. Bạn có thể chọn kỹ thuật tối ưu hóa mô hình như Giải mã suy đoán, Lượng tử hóa và Biên dịch hoặc kết hợp nhiều kỹ thuật để áp dụng vào mô hình của bạn, chạy định chuẩn để đánh giá tác động của các kỹ thuật đó đối với chất lượng đầu ra và hiệu suất suy luận, cũng như triển khai mô hình chỉ trong vài cú nhấp chuột.

Triển khai mô hình trên cơ sở hạ tầng hiệu suất cao nhất hoặc triển khai phi máy chủ
Amazon SageMaker AI cung cấp hơn 70 loại phiên bản với các mức điện toán và bộ nhớ khác nhau, bao gồm các phiên bản Amazon EC2 Inf1 dựa trên AWS Inferentia, chip suy luận ML hiệu suất cao do AWS thiết kế và xây dựng, và các phiên bản GPU như Amazon EC2 G4dn. Hoặc, chọn Suy luận phi máy chủ của Amazon SageMaker để dễ dàng điều chỉnh quy mô lên hàng nghìn mô hình trên mỗi điểm cuối, thông lượng hàng triệu giao dịch mỗi giây (TPS) và độ trễ chung dưới 10 mili giây.

Kiểm thử trước phát hành để xác thực hiệu suất của các mô hình ML
Amazon SageMaker AI giúp bạn đánh giá một mô hình mới bằng cách kiểm thử trước phát hành hiệu suất của nó so với mô hình hiện đang được triển khai SageMaker bằng cách sử dụng các yêu cầu suy luận trực tiếp. Kiểm thử trước phát hành có thể giúp bạn phát hiện các lỗi cấu hình tiềm ẩn và các vấn đề về hiệu suất trước khi chúng tác động đến người dùng cuối. Với SageMaker AI, bạn không cần phải đầu tư hàng tuần thời gian để xây dựng cơ sở hạ tầng kiểm thử trước phát hành của riêng mình. Chỉ cần chọn một mô hình sản xuất mà bạn muốn kiểm thử và SageMaker AI sẽ tự động triển khai cho mô hình mới ở chế độ trước phát hành và định tuyến một bản sao của các yêu cầu suy luận mà mô hình sản xuất nhận được đến mô hình mới theo thời gian thực.

Tự động điều chỉnh độ linh hoạt
Bạn có thể sử dụng các chính sách điều chỉnh quy mô để tự động mở rộng các tài nguyên điện toán cơ bản nhằm thích ứng với các biến động về yêu cầu suy luận. Bạn có thể kiểm soát các chính sách điều chỉnh quy mô cho từng mô hình ML riêng biệt để xử lý các thay đổi trong việc sử dụng mô hình một cách dễ dàng, đồng thời tối ưu hóa chi phí cơ sở hạ tầng.

Cải thiện độ trễ và định tuyến thông minh
Bạn có thể giảm độ trễ suy luận cho các mô hình ML bằng cách định tuyến thông minh các yêu cầu suy luận mới đến các phiên bản sẵn sàng thay vì định tuyến ngẫu nhiên yêu cầu đến các phiên bản đã bận phục vụ các yêu cầu suy luận, cho phép bạn đạt được độ trễ suy luận trung bình thấp hơn 20%.
Giảm gánh nặng vận hành và tăng thời gian tạo ra giá trị
Quản lý và lưu trữ mô hình được quản lý toàn phần
Là một dịch vụ được quản lý toàn phần, Amazon SageMaker AI đảm nhận việc thiết lập và quản lý các phiên bản, khả năng tương thích của phiên bản phần mềm và vá lỗi các phiên bản. Dịch vụ này cũng cung cấp các số liệu và nhật ký tích hợp cho các điểm cuối mà bạn có thể sử dụng để theo dõi và nhận cảnh báo.

Tích hợp sẵn với các tính năng MLops
Các tính năng triển khai mô hình Amazon SageMaker AI được tích hợp nguyên bản với các chức năng của MLOps, bao gồm SageMaker Pipelines (tự động hóa và điều phối quy trình làm việc), Dự án SageMaker (CI/CD cho ML), Kho tính năng của SageMaker (quản lý tính năng), Sổ đăng ký mô hình của SageMaker (danh mục mô hình và tạo tác để theo dõi dòng và hỗ trợ luồng công việc phê duyệt tự động), SageMaker Clarify (phát hiện sai lệch) và Trình giám sát mẫu của SageMaker (phát hiện sai lệch về mô hình và khái niệm). Do đó, cho dù bạn triển khai một mô hình hay hàng chục nghìn mô hình, SageMaker AI giúp giảm chi phí hoạt động của việc triển khai, mở rộng và quản lý các mô hình ML đồng thời đưa chúng vào sản xuất nhanh hơn.

Khách hàng
Tài nguyên cho Suy luận SageMaker
Thông tin mới
Total results: 37
- Ngày (Từ mới nhất đến cũ nhất)
-
30/01/2025
-
11/12/2024
-
06/12/2024
-
06/12/2024
-
04/12/2024