Amazon SageMaker giới thiệu các tính năng mới để đẩy nhanh tốc độ điều chỉnh quy mô Suy luận dựa trên AI tạo sinh
Chúng tôi rất vui được công bố hai tính năng mới trong công cụ Suy luận của SageMaker giúp cải thiện đáng kể khả năng triển khai và điều chỉnh quy mô cho mô hình AI tạo sinh: Lưu bộ chứa vào bộ nhớ đệm và Bộ tải nhanh mô hình. Điểm cải tiến này giải quyết những thách thức quan trọng trong việc điều chỉnh quy mô cho mô hình ngôn ngữ lớn (LLM) một cách hiệu quả, cho phép mô hình phản hồi nhanh hơn với lưu lượng truy cập tăng đột biến và tiết kiệm chi phí trong quá trình điều chỉnh quy mô. Bằng cách giảm thời gian tải mô hình và tăng tốc độ tự động điều chỉnh quy mô, các tính năng này cho phép khách hàng cải thiện có khả năng thích ứng của ứng dụng AI tạo sinh khi nhu cầu thay đổi, đặc biệt hữu ích đối với những dịch vụ có mẫu hình lưu lượng truy cập linh hoạt.
Tính năng Lưu bộ chứa vào bộ nhớ đệm giúp giảm đáng kể thời gian cần thiết để điều chỉnh quy mô cho mô hình AI tạo sinh hỗ trợ suy luận bằng cách lưu trước hình ảnh bộ chứa vào bộ nhớ đệm. Với tính năng này, bạn không còn phải tải hình ảnh xuống khi điều chỉnh quy mô, giúp giảm đáng kể thời gian điều chỉnh quy mô cho các điểm cuối của mô hình AI tạo sinh. Bộ tải nhanh mô hình truyền trực tiếp trọng số mô hình từ Amazon S3 đến trình tăng tốc, giúp tải mô hình nhanh hơn nhiều so với các phương pháp truyền thống. Những tính năng này cho phép khách hàng tạo ra chính sách tự động điều chỉnh quy mô có khả năng thích ứng cao hơn, cho phép SageMaker thêm phiên bản mới hoặc bản sao mô hình một cách nhanh chóng khi đạt đến ngưỡng xác định để duy trì hiệu suất tối ưu trong thời gian lưu lượng truy cập tăng đột biến đồng thời quản lý chi phí hiệu quả.
Bạn có thể truy cập các tính năng mới này ở tất cả các Khu vực AWS hỗ trợ công cụ Suy luận của Amazon SageMaker. Để tìm hiểu thêm, hãy xem tài liệu của chúng tôi để được hướng dẫn chi tiết về cách triển khai.