Đánh giá của Amazon Bedrock

Đánh giá mô hình nền tảng, bao gồm các mô hình tùy chỉnh và mô hình đã nhập, để tìm những mô hình phù hợp với nhu cầu của bạn. Bạn cũng có thể đánh giá quy trình truy xuất hoặc quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock.

Tổng quan

Amazon Bedrock cung cấp các công cụ đánh giá để giúp bạn tăng tốc quá trình áp dụng các ứng dụng AI tạo sinh. Đánh giá, so sánh và chọn mô hình nền tảng cho trường hợp sử dụng của bạn bằng Đánh giá mô hình. Chuẩn bị đưa vào sản xuất các ứng dụng RAG được xây dựng trên Cơ sở kiến thức dành cho Amazon Bedrock hoặc hệ thống RAG tùy chỉnh của chính bạn bằng cách đánh giá các hàm truy xuất hoặc truy xuất và tạo.

Các loại đánh giá

Mô hình: LLM-as-a-Judge (LLM làm công cụ đánh giá)

Mô hình: Theo lập trình

Mô hình: Do con người thực hiện

RAG: Truy xuất

RAG: Truy xuất và tạo

Đánh giá quy trình làm việc RAG toàn diện của bạn

Sử dụng các bản đánh giá truy xuất và tạo để đánh giá khả năng tạo có kết hợp truy xuất thông tin ngoài (RAG) toàn diện của ứng dụng. Đảm bảo nội dung được tạo chính xác, đầy đủ, hạn chế ảo giác và tuân thủ các nguyên tắc AI có trách nhiệm. Đánh giá hiệu năng của Cơ sở kiến thức dành cho Bedrock hoặc sử dụng phản hồi suy luận của riêng bạn từ hệ thống RAG tùy chỉnh của bạn. Chỉ cần chọn một LLM để sử dụng làm công cụ đánh giá với Cơ sở kiến thức dành cho Amazon Bedrock hoặc cho các đầu ra RAG tùy chỉnh của bạn, tải lên tập dữ liệu và chọn các chỉ số quan trọng nhất cho bản đánh giá của bạn.

Đảm bảo truy xuất hoàn chỉnh và phù hợp từ hệ thống RAG của bạn

Sử dụng các bản đánh giá truy xuất RAG để đánh giá cài đặt lưu trữ và truy xuất của Cơ sở kiến thức dành cho Amazon Bedrock hoặc hệ thống RAG tùy chỉnh. Đảm bảo nội dung được truy xuất có liên quan và bao quát toàn bộ truy vấn của người dùng. Chỉ cần chọn một LLM để sử dụng làm công cụ đánh giá, chọn Cơ sở kiến thức dành cho Bedrock để đánh giá hoặc bao gồm các truy xuất hệ thống RAG tùy chỉnh của bạn trong tập dữ liệu câu lệnh và chọn các chỉ số.

Đánh giá FM để chọn FM phù hợp nhất cho trường hợp sử dụng của bạn

Đánh giá mô hình của Amazon Bedrock cho phép bạn sử dụng các bản đánh giá tự động và đánh giá thực hiện bởi con người để chọn FM cho một trường hợp sử dụng cụ thể. Đánh giá mô hình tự động (theo lập trình) sử dụng các tập dữ liệu được tuyển chọn và tùy chỉnh, đồng thời cung cấp các chỉ số định sẵn bao gồm độ chính xác, độ chắc chắn và độ độc hại. Đối với các chỉ số chủ quan, bạn có thể sử dụng Amazon Bedrock để thiết lập quy trình đánh giá của con người trong một vài bước nhanh chóng. Với đánh giá của con người, bạn có thể sử dụng tập dữ liệu riêng và xác định các chỉ số tùy chỉnh, chẳng hạn như mức độ liên quan, phong cách và mức độ phù hợp với tiếng nói thương hiệu. Quy trình đánh giá thực hiện bởi con người có thể sử dụng nhân viên của bạn trong vai trò người đánh giá, hoặc bạn có thể thuê một đội ngũ do AWS quản lý để thực hiện đánh giá của con người, trong đó AWS thuê các nhân viên đánh giá có tay nghề cao và thay mặt bạn quản lý quy trình làm việc toàn diện. Bạn cũng có thể sử dụng LLM-as-a-Judge (LLM làm công cụ đánh giá) để cung cấp các bản đánh giá chất lượng cao về tập dữ liệu của mình với các chỉ số như tính chính xác, tính đầy đủ, sự trung thực (ảo giác), cùng với các chỉ số về AI có trách nhiệm như mức độ từ chối trả lời và tính gây hại. Bạn có thể đánh giá các mô hình Bedrock hoặc bất kỳ mô hình nào ở bất cứ đâu bằng cách sử dụng các phản hồi suy luận của riêng bạn trong tập dữ liệu câu lệnh đầu vào.

So sánh kết quả giữa nhiều tác vụ đánh giá để ra quyết định nhanh hơn

Sử dụng tính năng so sánh trong bản đánh giá để xem kết quả của bất kỳ thay đổi nào bạn đã thực hiện đối với câu lệnh, mô hình đang được đánh giá, hệ thống RAG tùy chỉnh hoặc Cơ sở kiến thức dành cho Bedrock của bạn.

Cách bắt đầu sử dụng

Blog

Cơ sở kiến thức của Amazon Bedrock hiện hỗ trợ đánh giá RAG (bản xem trước)

Đọc blog

Blog

Đánh giá mô hình của Amazon Bedrock hiện bao gồm LLM-as-a-judge (LLM làm công cụ đánh giá) (bản xem trước)

Đọc blog

Blog