Amazon Bedrock hiện hỗ trợ tính năng Đánh giá RAG (được cung cấp rộng rãi)
Công cụ đánh giá RAG trong Amazon Bedrock hiện được cung cấp rộng rãi. Bạn có thể đánh giá các ứng dụng tạo có kết hợp truy xuất thông tin ngoài (RAG) được xây dựng trên Cơ sở kiến thức dành cho Amazon Bedrock hoặc hệ thống RAG tùy chỉnh. Bạn có thể đánh giá khả năng truy xuất hoặc tạo toàn diện. Các đánh giá dựa trên tính năng LLM-as-a-Judge (LLM là công cụ đánh giá) và khách hàng có thể lựa chọn một số mô hình đánh giá. Để đánh giá khả năng truy xuất, bạn có thể chọn từ các chỉ số như mức độ liên quan đến ngữ cảnh và phạm vi bao quát. Để đánh giá khả năng tạo và truy xuất toàn diện, bạn có thể chọn từ các chỉ số chất lượng như tính chính xác, tính đầy đủ và trung thực (phát hiện ảo giác), cũng như các chỉ số về AI có trách nhiệm như tính gây hại, mức độ từ chối trả lời và định kiến. Bạn cũng có thể so sánh giữa các công việc đánh giá được thực hiện lặp lại trên Cơ sở kiến thức hoặc ứng dụng RAG tùy chỉnh với các cài đặt khác nhau, như chiến lược phân đoạn hoặc độ dài véc-tơ, xếp hạng lại hay các mô hình tạo nội dung khác nhau.
*Hoàn toàn mới – linh hoạt hơn!* Kể từ hôm nay, ngoài Cơ sở kiến thức dành cho Bedrock, công cụ đánh giá RAG của Amazon Bedrock còn hỗ trợ các đánh giá quy trình RAG tùy chỉnh. Giờ đây, khách hàng đánh giá quy trình RAG tùy chỉnh có thể đưa cặp đầu vào – đầu ra và ngữ cảnh truy xuất vào công việc đánh giá ngay trong tập dữ liệu đầu vào, để có thể bỏ qua lệnh gọi đến Cơ sở kiến thức dành cho Bedrock ("sử dụng các phản hồi suy luận của riêng bạn"). Chúng tôi đã thêm chỉ số độ chính xác trích dẫn và phạm vi trích dẫn cho đánh giá Cơ sở kiến thức Bedrock. Nếu sử dụng Cơ sở kiến thức Bedrock trong quá trình đánh giá, bạn có thể kết hợp trực tiếp các Quy tắc bảo vệ của Amazon Bedrock.
Để tìm hiểu thêm, hãy truy cập trang Đánh giá trong Amazon Bedrock và tài liệu. Để bắt đầu, hãy đăng nhập Bảng điều khiển Amazon Bedrock hoặc sử dụng API Amazon Bedrock.