Đánh giá của Amazon Bedrock

Đánh giá mô hình nền tảng, bao gồm các mô hình tùy chỉnh và mô hình đã nhập, để tìm những mô hình phù hợp với nhu cầu của bạn. Bạn cũng có thể đánh giá quy trình truy xuất hoặc quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock.

Tổng quan

Amazon Bedrock cung cấp các công cụ đánh giá để giúp bạn tăng tốc quá trình áp dụng các ứng dụng AI tạo sinh. Đánh giá, so sánh và chọn mô hình nền tảng cho trường hợp sử dụng của bạn bằng Đánh giá mô hình. Chuẩn bị đưa vào sản xuất các ứng dụng RAG được xây dựng trên Cơ sở kiến thức của Amazon Bedrock bằng cách đánh giá các hàm truy xuất hoặc truy xuất và tạo.

Ảnh chụp màn hình UI

Các loại đánh giá

Sử dụng LLM làm công cụ đánh giá để đánh giá đầu ra của mô hình bằng cách sử dụng tập dữ liệu câu lệnh tùy chỉnh của bạn với các chỉ số như tính chính xác, tính đầy đủ và tính gây hại.

Đánh giá đầu ra của mô hình bằng thuật toán ngôn ngữ tự nhiên truyền thống và các chỉ số như BERT Score, F1 và các kỹ thuật so khớp chính xác khác, bằng cách sử dụng tập dữ liệu câu lệnh tích hợp sẵn hoặc của riêng bạn.

Đánh giá đầu ra của mô hình bằng nhân sự của riêng bạn hoặc để AWS quản lý bản đánh giá cho phản hồi đối với tập dữ liệu câu lệnh tùy chỉnh của bạn bằng các chỉ số tích hợp sẵn hoặc tùy chỉnh.

Đánh giá chất lượng truy xuất của Cơ sở kiến thức của Amazon Bedrock với các câu lệnh và chỉ số tùy chỉnh của bạn như mức độ liên quan với ngữ cảnh và phạm vi ngữ cảnh.

Đánh giá nội dung được tạo trong quy trình làm việc RAG toàn diện của bạn với Cơ sở kiến thức của Amazon Bedrock từ các câu lệnh và chỉ số tùy chỉnh của bạn như sự trung thực, tính chính xác và tính đầy đủ.

Đánh giá quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock

Sử dụng các bản đánh giá truy xuất và tạo để đánh giá khả năng tạo có kết hợp truy xuất thông tin ngoài (RAG) toàn diện của ứng dụng. Đảm bảo nội dung được tạo chính xác, đầy đủ, hạn chế ảo giác và tuân thủ các nguyên tắc AI có trách nhiệm. Chỉ cần chọn một mô hình tạo nội dung và LLM để sử dụng làm công cụ đánh giá với Cơ sở kiến thức của Amazon Bedrock, tải lên tập dữ liệu câu lệnh tùy chỉnh của bạn và chọn các chỉ số quan trọng nhất cho bản đánh giá của bạn.

Ảnh chụp màn hình UI

Đảm bảo nội dung truy xuất đầy đủ và có liên quan từ Cơ sở kiến thức của Amazon Bedrock

Sử dụng các bản đánh giá truy xuất trong đánh giá Cơ sở kiến thức của Amazon Bedrock để đánh giá cài đặt lưu trữ và truy xuất của Cơ sở kiến thức của Amazon Bedrock. Đảm bảo nội dung được truy xuất có liên quan và bao quát toàn bộ truy vấn của người dùng. Chỉ cần chọn một Cơ sở kiến thức và LLM để sử dụng làm công cụ đánh giá, tải lên tập dữ liệu câu lệnh tùy chỉnh của bạn và chọn các chỉ số quan trọng nhất cho bản đánh giá của bạn.

Ảnh chụp màn hình UI

Đánh giá FM để chọn FM phù hợp nhất cho trường hợp sử dụng của bạn

Đánh giá mô hình của Amazon Bedrock cho phép bạn sử dụng các bản đánh giá tự động và đánh giá thực hiện bởi con người để chọn FM cho một trường hợp sử dụng cụ thể. Đánh giá mô hình tự động (theo lập trình) sử dụng các tập dữ liệu được tuyển chọn và tùy chỉnh, đồng thời cung cấp các chỉ số định sẵn bao gồm độ chính xác, độ chắc chắn và độ độc hại. Đối với các chỉ số chủ quan, bạn có thể sử dụng Amazon Bedrock để thiết lập quy trình đánh giá của con người trong một vài bước nhanh chóng. Với đánh giá của con người, bạn có thể sử dụng tập dữ liệu riêng và xác định các chỉ số tùy chỉnh, chẳng hạn như mức độ liên quan, phong cách và mức độ phù hợp với tiếng nói thương hiệu. Quy trình đánh giá thực hiện bởi con người có thể sử dụng nhân viên của bạn trong vai trò người đánh giá, hoặc bạn có thể thuê một đội ngũ do AWS quản lý để thực hiện đánh giá của con người, trong đó AWS thuê các nhân viên đánh giá có tay nghề cao và thay mặt bạn quản lý quy trình làm việc toàn diện. Bạn cũng có thể sử dụng LLM-as-a-Judge (LLM làm công cụ đánh giá) để cung cấp các bản đánh giá chất lượng cao về tập dữ liệu của mình với các chỉ số như tính chính xác, tính đầy đủ, sự trung thực (ảo giác), cùng với các chỉ số về AI có trách nhiệm như mức độ từ chối trả lời và tính gây hại.

Ảnh chụp màn hình UI

So sánh kết quả giữa nhiều tác vụ đánh giá để ra quyết định nhanh hơn

Sử dụng tính năng so sánh trong bản đánh giá để xem kết quả của bất kỳ thay đổi nào bạn đã thực hiện đối với câu lệnh, mô hình đang được đánh giá hoặc Cơ sở kiến thức trong hệ thống RAG của bạn.

Ảnh chụp màn hình UI