Amazon Bedrock, 이제 RAG Evaluation 기능 지원(정식 버전으로 제공)

게시된 날짜: 2025년 3월 20일

Amazon Bedrock RAG Evaluation이 이제 정식 버전으로 제공됩니다. Amazon Bedrock Knowledge Bases 또는 사용자 지정 RAG 시스템에 구축된 검색 증강 생성(RAG) 애플리케이션을 평가할 수 있으며, 검색 또는 엔드 투 엔드 생성을 평가할 수 있습니다. Evaluation 기능은 LLM-as-a-judge 기술을 기반으로 하며, 여러 심사자 모델 중에서 선택할 수 있습니다. 검색의 경우, 컨텍스트 관련성 및 적용 범위와 같은 지표 중에서 선택할 수 있습니다. 엔드 투 엔드 검색 및 생성의 경우, 정확성, 완전성, 충실도(할루시네이션 탐지)와 같은 품질 지표와 유해성, 답변 거부, 고정관념과 같은 책임 있는 AI 지표 중에서 선택할 수 있습니다. 또한 청크 전략이나 벡터 길이, 리랭커, 콘텐츠 생성 모델 등 다양한 설정을 사용하여 Knowledge Bases 또는 사용자 지정 RAG 애플리케이션에서 반복할 평가 작업 전반을 비교할 수 있습니다.

*신규 기능 - 유연성 향상!* 현재 Amazon Bedrock의 RAG Evaluation은 Bedrock Knowledge Bases 외에도 사용자 지정 RAG 파이프라인 평가를 지원합니다. 사용자 지정 RAG 파이프라인을 평가하는 고객은 이제 입력-출력 페어와 검색된 컨텍스트를 입력 데이터세트의 평가 작업에 직접 가져올 수 있으므로 Bedrock Knowledge Base에 대한 호출을 우회할 수 있습니다(“자체 추론 응답 가져오기”). 또한 AWS는 Bedrock Knowledge Bases 평가를 위한 인용 정밀도인용 범위 지표를 추가했습니다. 평가의 일부로 Bedrock Knowledge Base를 사용하는 경우 Amazon Bedrock Guardrails를 직접 통합할 수 있습니다.

자세히 알아보려면 Amazon Bedrock 평가 페이지설명서를 참조하세요. 시작하려면 Amazon Bedrock 콘솔에 로그인하거나 Amazon Bedrock API를 사용하시기 바랍니다.