Amazon Bedrock, 이제 RAG Evaluation 기능 지원(정식 버전으로 제공)
Amazon Bedrock RAG Evaluation이 이제 정식 버전으로 제공됩니다. Amazon Bedrock Knowledge Bases 또는 사용자 지정 RAG 시스템에 구축된 검색 증강 생성(RAG) 애플리케이션을 평가할 수 있으며, 검색 또는 엔드 투 엔드 생성을 평가할 수 있습니다. Evaluation 기능은 LLM-as-a-judge 기술을 기반으로 하며, 여러 심사자 모델 중에서 선택할 수 있습니다. 검색의 경우, 컨텍스트 관련성 및 적용 범위와 같은 지표 중에서 선택할 수 있습니다. 엔드 투 엔드 검색 및 생성의 경우, 정확성, 완전성, 충실도(할루시네이션 탐지)와 같은 품질 지표와 유해성, 답변 거부, 고정관념과 같은 책임 있는 AI 지표 중에서 선택할 수 있습니다. 또한 청크 전략이나 벡터 길이, 리랭커, 콘텐츠 생성 모델 등 다양한 설정을 사용하여 Knowledge Bases 또는 사용자 지정 RAG 애플리케이션에서 반복할 평가 작업 전반을 비교할 수 있습니다.
*신규 기능 - 유연성 향상!* 현재 Amazon Bedrock의 RAG Evaluation은 Bedrock Knowledge Bases 외에도 사용자 지정 RAG 파이프라인 평가를 지원합니다. 사용자 지정 RAG 파이프라인을 평가하는 고객은 이제 입력-출력 페어와 검색된 컨텍스트를 입력 데이터세트의 평가 작업에 직접 가져올 수 있으므로 Bedrock Knowledge Base에 대한 호출을 우회할 수 있습니다(“자체 추론 응답 가져오기”). 또한 AWS는 Bedrock Knowledge Bases 평가를 위한 인용 정밀도 및 인용 범위 지표를 추가했습니다. 평가의 일부로 Bedrock Knowledge Base를 사용하는 경우 Amazon Bedrock Guardrails를 직접 통합할 수 있습니다.
자세히 알아보려면 Amazon Bedrock 평가 페이지 및 설명서를 참조하세요. 시작하려면 Amazon Bedrock 콘솔에 로그인하거나 Amazon Bedrock API를 사용하시기 바랍니다.