Đánh giá của Amazon Bedrock
Đánh giá mô hình nền tảng, bao gồm các mô hình tùy chỉnh và mô hình đã nhập, để tìm những mô hình phù hợp với nhu cầu của bạn. Bạn cũng có thể đánh giá quy trình truy xuất hoặc quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock.
Tổng quan
Amazon Bedrock cung cấp các công cụ đánh giá để giúp bạn tăng tốc quá trình áp dụng các ứng dụng AI tạo sinh. Đánh giá, so sánh và chọn mô hình nền tảng cho trường hợp sử dụng của bạn bằng Đánh giá mô hình. Chuẩn bị đưa vào sản xuất các ứng dụng RAG được xây dựng trên Cơ sở kiến thức của Amazon Bedrock bằng cách đánh giá các hàm truy xuất hoặc truy xuất và tạo.

Các loại đánh giá
Đánh giá quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock
Sử dụng các bản đánh giá truy xuất và tạo để đánh giá khả năng tạo có kết hợp truy xuất thông tin ngoài (RAG) toàn diện của ứng dụng. Đảm bảo nội dung được tạo chính xác, đầy đủ, hạn chế ảo giác và tuân thủ các nguyên tắc AI có trách nhiệm. Chỉ cần chọn một mô hình tạo nội dung và LLM để sử dụng làm công cụ đánh giá với Cơ sở kiến thức của Amazon Bedrock, tải lên tập dữ liệu câu lệnh tùy chỉnh của bạn và chọn các chỉ số quan trọng nhất cho bản đánh giá của bạn.

Đảm bảo nội dung truy xuất đầy đủ và có liên quan từ Cơ sở kiến thức của Amazon Bedrock
Sử dụng các bản đánh giá truy xuất trong đánh giá Cơ sở kiến thức của Amazon Bedrock để đánh giá cài đặt lưu trữ và truy xuất của Cơ sở kiến thức của Amazon Bedrock. Đảm bảo nội dung được truy xuất có liên quan và bao quát toàn bộ truy vấn của người dùng. Chỉ cần chọn một Cơ sở kiến thức và LLM để sử dụng làm công cụ đánh giá, tải lên tập dữ liệu câu lệnh tùy chỉnh của bạn và chọn các chỉ số quan trọng nhất cho bản đánh giá của bạn.

Đánh giá FM để chọn FM phù hợp nhất cho trường hợp sử dụng của bạn
Đánh giá mô hình của Amazon Bedrock cho phép bạn sử dụng các bản đánh giá tự động và đánh giá thực hiện bởi con người để chọn FM cho một trường hợp sử dụng cụ thể. Đánh giá mô hình tự động (theo lập trình) sử dụng các tập dữ liệu được tuyển chọn và tùy chỉnh, đồng thời cung cấp các chỉ số định sẵn bao gồm độ chính xác, độ chắc chắn và độ độc hại. Đối với các chỉ số chủ quan, bạn có thể sử dụng Amazon Bedrock để thiết lập quy trình đánh giá của con người trong một vài bước nhanh chóng. Với đánh giá của con người, bạn có thể sử dụng tập dữ liệu riêng và xác định các chỉ số tùy chỉnh, chẳng hạn như mức độ liên quan, phong cách và mức độ phù hợp với tiếng nói thương hiệu. Quy trình đánh giá thực hiện bởi con người có thể sử dụng nhân viên của bạn trong vai trò người đánh giá, hoặc bạn có thể thuê một đội ngũ do AWS quản lý để thực hiện đánh giá của con người, trong đó AWS thuê các nhân viên đánh giá có tay nghề cao và thay mặt bạn quản lý quy trình làm việc toàn diện. Bạn cũng có thể sử dụng LLM-as-a-Judge (LLM làm công cụ đánh giá) để cung cấp các bản đánh giá chất lượng cao về tập dữ liệu của mình với các chỉ số như tính chính xác, tính đầy đủ, sự trung thực (ảo giác), cùng với các chỉ số về AI có trách nhiệm như mức độ từ chối trả lời và tính gây hại.

So sánh kết quả giữa nhiều tác vụ đánh giá để ra quyết định nhanh hơn
Sử dụng tính năng so sánh trong bản đánh giá để xem kết quả của bất kỳ thay đổi nào bạn đã thực hiện đối với câu lệnh, mô hình đang được đánh giá hoặc Cơ sở kiến thức trong hệ thống RAG của bạn.
