Amazon SageMaker giới thiệu tính năng Giảm quy mô theo tài nguyên về 0 để hỗ trợ khách hàng tiết kiệm chi phí khi chạy suy luận AI

Ngày đăng: 25 Th11 2024

Chúng tôi rất vui được công bố tính năng Giảm quy mô theo tài nguyên về 0, một tính năng mới trong Amazon SageMaker Inference cho phép các điểm cuối giảm quy mô phiên bản về 0 trong thời gian không hoạt động. Tính năng này giúp giảm đáng kể chi phí chạy suy luận bằng mô hình AI, đặc biệt có lợi cho các ứng dụng có mẫu hình lưu lượng truy cập thay đổi như chatbot, hệ thống kiểm duyệt nội dung và các trường hợp sử dụng AI tạo sinh khác.

Với tính năng Giảm quy mô theo tài nguyên về 0, khách hàng có thể đặt cấu hình điểm cuối suy luận của SageMaker để tự động giảm quy mô về 0 khi không sử dụng, sau đó nhanh chóng tăng quy mô trở lại khi lưu lượng truy cập khôi phục. Tính năng này có hiệu quả đối với các trường hợp có mẫu hình lưu lượng truy cập có thể dự đoán, lưu lượng suy luận không liên tục và môi trường phát triển/thử nghiệm. Bạn có thể dễ dàng triển khai tính năng Giảm quy mô theo tài nguyên về 0 với Các thành phần suy luận của SageMaker. Khách hàng có thể đặt cấu hình chính sách tự động điều chỉnh quy mô qua SDK AWS dành cho Python (Boto3), SDK SageMaker Python hoặc Giao diện dòng lệnh AWS (AWS CLI). Quá trình này bao gồm thiết lập điểm cuối có bật tính năng điều chỉnh quy mô phiên bản được quản lý, đặt cấu hình chính sách điều chỉnh quy mô và tạo cảnh báo CloudWatch để kích hoạt hành động điều chỉnh quy mô.

Tính năng Giảm quy mô theo tài nguyên về 0 hiện được cung cấp rộng rãi ở tất cả các Khu vực AWS hỗ trợ Amazon SageMaker. Để tìm hiểu thêm về cách triển khai tính năng Giảm quy mô theo tài nguyên về 0 và tối ưu hóa chi phí cho các mục triển khai AI tạo sinh, vui lòng truy cập trang tài liệu của chúng tôi.