Đánh giá trong Amazon Bedrock AgentCore hiện được cung cấp rộng rãi
Đánh giá trong Amazon Bedrock AgentCore hiện được cung cấp rộng rãi, hỗ trợ đánh giá chất lượng tự động cho các tác tử AI. Tính năng Đánh giá giúp các nhà phát triển giám sát chất lượng tác tử thông qua đánh giá liên tục lưu lượng sản xuất, xác thực thay đổi thông qua quy trình công việc kiểm thử và đo lường hiệu năng của tác tử so với kỳ vọng đã định. Tính năng Đánh giá trong AgentCore cung cấp hai loại đánh giá. Đánh giá trực tuyến liên tục theo dõi hiệu năng của tác tử trong môi trường sản xuất bằng cách lấy mẫu và chấm điểm các dấu vết trực tiếp. Đánh giá theo nhu cầu cho phép đội ngũ kiểm thử tác tử thông qua lập trình, hỗ trợ kiểm thử hồi quy trong quy trình CI/CD và quy trình công việc phát triển tương tác.
Các đội ngũ có thể đánh giá tác tử bằng cách sử dụng 13 trình đánh giá tích hợp về chất lượng phản hồi, độ an toàn, mức độ hoàn thành nhiệm vụ và mức sử dụng công cụ. Các nhà phát triển cũng có thể sử dụng Ground Truth để đo lường hiệu năng của tác tử so với dự kiến, bao gồm câu trả lời tham khảo để xác thực phản hồi, xác nhận hành vi cho các mục tiêu ở cấp độ phiên và trình tự thực thi công cụ dự kiến. Đối với các yêu cầu đặc thù theo lĩnh vực, các đội ngũ có thể cấu hình trình đánh giá tùy chỉnh bằng cách sử dụng lựa chọn câu lệnh và mô hình để đánh giá dựa trên LLM hoặc triển khai logic tùy chỉnh trong Python hoặc JavaScript thông qua các hàm được lưu trữ trên Lambda nhằm đánh giá dựa trên mã. Tính năng Đánh giá tích hợp với Theo dõi nội trạng AgentCore để giám sát thống nhất và cảnh báo theo thời gian thực.
Tính năng Đánh giá AgentCore được cung cấp ở chín Khu vực AWS: Miền Đông Hoa Kỳ (Bắc Virginia), Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Mumbai), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Tokyo), Châu Âu (Frankfurt) và Châu Âu (Ireland).
Tìm hiểu thêm về tính năng Đánh giá trong Amazon Bedrock AgentCore thông qua tài liệu và bắt đầu với Bộ công cụ khởi đầu AgentCore