Đánh giá mô hình và RAG của Amazon Bedrock hiện đã hỗ trợ các chỉ số tùy chỉnh
Đánh giá của Amazon Bedrock cho phép bạn đánh giá các mô hình nền tảng và hệ thống tạo có kết hợp truy xuất thông tin ngoài (RAG), cho dù được lưu trữ trên Amazon Bedrock hay triển khai tại chỗ và đa đám mây. Đánh giá của Bedrock cung cấp đánh giá của con người, đánh giá theo lập trình như BERTScore, F1 và các chỉ số khớp chính xác khác, cũng như LLM-as-a-judge cho cả đánh giá mô hình và RAG. Đối với cả đánh giá mô hình và RAG bằng LLM-as-a-judge, khách hàng có thể chọn từ danh sách nhiều chỉ số tích hợp như tính chính xác, tính đầy đủ, tính trung thực (phát hiện ảo giác), cùng với các chỉ số về AI có trách nhiệm như mức độ từ chối trả lời, tính gây hại và định kiến. Tuy nhiên, trong một số trường hợp, khách hàng muốn xác định các chỉ số này theo cách khác hoặc tạo chỉ số mới phù hợp với nhu cầu của mình. Ví dụ: khách hàng có thể xác định một chỉ số để đánh giá tính tuân thủ của phản hồi ứng dụng đối với giọng nói thương hiệu cụ thể hoặc muốn phân loại phản hồi theo tiêu chí phân loại tùy chỉnh.
Giờ đây, thông qua Đánh giá của Amazon Bedrock, khách hàng có thể tạo và tái sử dụng các chỉ số tùy chỉnh cho cả đánh giá mô hình và RAG dựa trên LLM-as-a-judge. Khách hàng có thể tự viết câu lệnh đánh giá, xác định thang đánh giá theo danh mục hoặc số và sử dụng các biến tích hợp để đưa dữ liệu từ tập dữ liệu hoặc phản hồi GenAI vào câu lệnh đánh giá trong thời gian hoạt động để tùy chỉnh hoàn toàn luồng dữ liệu trong đánh giá. Khách hàng có thể được truyền cảm hứng để tạo ra mẫu/rubic câu lệnh đánh giá mới bằng các mẫu hướng dẫn nhanh được cung cấp hoặc khách hàng có thể tạo mẫu riêng từ đầu.
Để bắt đầu, vui lòng truy cập bảng điều khiển Amazon Bedrock hoặc sử dụng API Bedrock. Để biết thêm thông tin, vui lòng tham khảo hướng dẫn sử dụng.