Amazon SageMaker ra mắt tính năng tự động điều chỉnh quy mô nhanh hơn cho các mô hình AI tạo sinh
Chúng tôi rất vui mừng được công bố một khả năng mới trong tùy chọn Suy luận của Amazon SageMaker giúp khách hàng giảm thời gian cần thiết để các mô hình AI tạo sinh của họ tự động điều chỉnh quy mô. Giờ đây, họ có thể sử dụng các chỉ số nhỏ hơn phút và giảm đáng kể độ trễ tổng thể khi điều chỉnh quy mô của các mô hình AI. Bằng cách sử dụng khả năng nâng cao này, khách hàng có thể cải thiện khả năng đáp ứng của các ứng dụng AI tạo sinh trước nhu cầu luôn biến động.
Với khả năng này, khách hàng sẽ nhận được hai chỉ số CloudWatch có độ phân giải cao mới – ConcurrentRequestsPerModel và ConcurrentRequestsPerModelCopy – cho phép tự động điều chỉnh quy mô nhanh hơn. Các chỉ số này được tạo ra trong khoảng thời gian 10 giây và biểu thị tải trên điểm cuối chính xác hơn bằng cách theo dõi số lượng yêu cầu đồng thời thực tế hoặc số lượng yêu cầu suy luận mà mô hình đang xử lý. Khách hàng có thể tạo chính sách điều chỉnh quy mô tự động bằng cách sử dụng các chỉ số có độ phân giải cao này để điều chỉnh quy mô cho mô hình của họ đã triển khai trên điểm cuối SageMaker. Amazon SageMaker sẽ bắt đầu thêm phiên bản mới hoặc bản sao mô hình trong vòng chưa đầy một phút khi đạt đến ngưỡng được xác định trong các chính sách tự động điều chỉnh quy mô này. Điều này cho phép khách hàng tối ưu hóa hiệu suất và hiệu quả chi phí cho khối lượng công việc suy luận của họ trên SageMaker.
Bạn có thể truy cập khả năng mới này trên các dòng phiên bản trình tăng tốc (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) ở tất cả các khu vực AWS được cung cấp tùy chọn Suy luận của Amazon SageMaker, ngoại trừ Trung Quốc và AWS GovCloud (Hoa Kỳ). Để tìm hiểu thêm, hãy xem blog AWS ML và truy cập tài liệu của chúng tôi.