Tính năng LLM-as-a-judge (LLM là công cụ đánh giá) của Đánh giá mô hình Amazon Bedrock hiện được cung cấp rộng rãi
Tính năng LLM-as-a-judge (LLM là công cụ đánh giá) của Đánh giá mô hình Amazon Bedrock hiện được cung cấp rộng rãi. Đánh giá mô hình Amazon Bedrock cho phép bạn đánh giá, so sánh và chọn mô hình phù hợp cho trường hợp sử dụng của mình. Bạn có thể chọn một trong các LLM có sẵn trên Bedrock làm mô hình đánh giá để bảo đảm sự kết hợp phù hợp giữa mô hình đánh giá và mô hình được đánh giá. Bạn có thể chọn các chỉ số chất lượng, như: tính chính xác, tính đầy đủ, phong cách và giọng điệu chuyên nghiệp, cũng như các chỉ số AI có trách nhiệm như tính gây hại và mức độ từ chối trả lời. Bạn có thể đánh giá tất cả các mô hình có sẵn trên Amazon Bedrock, bao gồm mô hình phi máy chủ, mô hình Bedrock Marketplace tương thích với API Converse, mô hình tùy chỉnh và chắt lọc, mô hình được nhập và bộ định tuyến mô hình. Bạn cũng có thể so sánh kết quả giữa các công việc đánh giá.
*Hoàn toàn mới – linh hoạt hơn!* Kể từ hôm nay, bạn có thể đánh giá các mô hình hoặc hệ thống được lưu trữ ở bất cứ đâu bằng cách đưa phản hồi suy luận riêng mà bạn đã tìm nạp vào tập dữ liệu câu lệnh đầu vào của mình ("sử dụng các phản hồi suy luận của riêng bạn"). Những phản hồi này có thể đến từ mô hình Amazon Bedrock hoặc bất kỳ mô hình/ứng dụng nào được lưu trữ bên ngoài Amazon Bedrock, để cho phép bạn không phải gọi mô hình Amazon Bedrock trong công việc đánh giá và kết hợp mọi bước trung gian của ứng dụng vào phản hồi cuối cùng.
Với tính năng LLM-as-a-judge (LLM là công cụ đánh giá), bạn có thể nhận được chất lượng đánh giá tương tự như con người với chi phí thấp, đồng thời giảm bớt được nhiều tuần làm việc.
Để tìm hiểu thêm, hãy truy cập trang Đánh giá trong Amazon Bedrock và tài liệu. Để bắt đầu, hãy đăng nhập Bảng điều khiển AWS hoặc sử dụng API Amazon Bedrock.