Amazon Bedrock AgentCore Evaluations 정식 버전 출시
이제 Amazon Bedrock AgentCore Evaluations가 정식 버전으로 출시되어 AI 에이전트에 대한 자동 품질 평가를 제공합니다. Evaluations를 사용하여 개발자는 프로덕션 트래픽의 지속적인 평가를 통해 에이전트 품질을 모니터링하고, 테스트 워크플로를 통해 변경 사항을 검증하고, 설정된 기대치에 따라 에이전트 성과를 측정할 수 있습니다. AgentCore Evaluations에서는 2가지 평가 유형을 제공합니다. 온라인 평가는 실시간 트레이스를 샘플링한 후 점수를 매겨 프로덕션 과정에서 에이전트 성능을 지속적으로 모니터링합니다. 그리고 온디맨드 평가를 통해 팀은 CI/CD 파이프라인 및 대화형 개발 워크플로에서 회귀 테스트를 지원하여 에이전트를 프로그래밍 방식으로 테스트할 수 있습니다.
팀에서는 기본 제공되는 13가지 평가자를 사용하여 응답 품질, 안전, 태스크 완료, 도구 사용에 대해 에이전트를 평가할 수 있습니다. 또한 개발자는 Ground Truth를 사용하여 응답 검증을 위한 참조 답변, 세션 수준 목표에 대한 동작 어설션, 예상 도구 실행 시퀀스를 비롯한 기대치를 기준으로 에이전트 성능을 측정할 수 있습니다. 도메인별 요구 사항이 있을 경우 팀에서는 LLM 기반 평가용으로 선택한 프롬프트 및 모델을 사용하여 사용자 지정 평가자를 구성하거나, 코드 기반 평가를 위한 Lambda 호스팅 함수를 통해 Python 또는 JavaScript로 사용자 지정 로직을 구현할 수 있습니다. Evaluations는 AgentCore Observability와 통합되어 통합 모니터링 및 실시간 알림을 제공합니다.
AgentCore Evaluations는 9개의 AWS 리전, 즉 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건), 아시아 태평양(뭄바이), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 유럽(프랑크푸르트), 유럽(아일랜드)에서 사용할 수 있습니다.
Amazon Bedrock AgentCore Evaluations에 대한 자세한 내용은 설명서를 통해 참조하고, AgentCore Starter Toolkit을 사용하여 시작하세요.