Amazon Bedrock RAG 및 모델 평가, 이제 사용자 지정 지표 지원

게시된 날짜: 2025년 4월 17일

Amazon Bedrock 평가 도구 세트를 통해 Amazon Bedrock에서 호스팅하든, 멀티클라우드 및 온프레미스 배포에 호스팅하든 관계없이 파운데이션 모델 및 검색 증강 생성(RAG) 시스템을 평가할 수 있게 되었습니다. Bedrock 평가 도구 세트는 인간 기반 평가, BERTScore, F1 및 기타 정확한 일치 지표와 같은 프로그래밍 방식 평가, 모델 및 RAG 평가 모두에 대해 평가형 LLM을 제공합니다. 평가형 LLM이 포함된 모델 및 RAG 평가 모두의 경우 고객은 정확성, 완전성, 충실도(할루시네이션 탐지)와 같은 기본 제공 지표의 광범위한 목록과 답변 거부, 유해성 및 고정관념과 같은 책임 있는 AI 지표 중에서 선택할 수 있습니다. 하지만 이러한 지표를 다르게 정의하거나 필요에 맞는 새로운 지표를 만들고 싶을 때가 있습니다. 그 예로 고객이 특정 Brand Voice에 대한 애플리케이션 응답의 준수도를 평가하는 지표를 정의하거나 사용자 지정 범주별 루브릭에 따라 응답을 분류하고자 하는 경우를 들 수 있습니다.

이제 Amazon Bedrock 평가 도구 세트에서 고객에게 평가형 LLM이 제공하는 모델 및 RAG 평가 모두에 대해 사용자 지정 지표를 생성하고 재사용할 수 있는 기능이 제공됩니다. 고객은 자체 심사자 프롬프트를 작성하고, 자체 범주별 또는 수치별 등급 척도를 정의하고, 기본 제공 변수를 사용하여 데이터세트 또는 생성형 AI 응답의 데이터를 런타임 중에 심사자 프롬프트에 주입하여 평가의 데이터 흐름을 완전히 사용자 지정할 수 있습니다. 고객은 제공된 퀵스타트 템플릿을 사용하여 새로운 심사자 프롬프트 템플릿/루브릭을 만들도록 영감을 받거나 처음부터 직접 만들 수 있습니다.

시작하려면 Amazon Bedrock 콘솔로 이동하거나 Bedrock API를 사용하면 됩니다. 자세한 내용은 사용 설명서를 참조하세요.