Amazon Bedrock Model Evaluation LLM-as-a-judge, 이제 정식 버전으로 제공

게시된 날짜: 2025년 3월 20일

이제 Amazon Bedrock Model Evaluation의 LLM-as-a-judge 기능이 정식 버전으로 제공됩니다. Amazon Bedrock Model Evaluation 기능을 사용하면 사용하면 파운데이션 모델을 평가 및 비교한 후 사용 사례에 적합한 모델을 선택할 수 있습니다. Bedrock에서 제공하는 여러 LLM 중에서 LLM-as-a-judge를 선택하여 평가자 모델과 평가 대상 모델을 올바르게 조합했는지 확인할 수 있습니다. 정확성, 완전성, 전문적인 스타일 및 어조와 같은 품질 지표와 유해성 및 답변 거부와 같은 책임 있는 AI 지표를 선택할 수 있습니다. 서버리스 모델, Converse API와 호환되는 Bedrock Marketplace 모델, 사용자 지정 및 증류된 모델, 가져온 모델, 모델 라우터를 비롯한 Amazon Bedrock에서 사용 가능한 모든 모델을 평가할 수 있습니다. 또한 평가 작업 전반에서 결과를 비교할 수도 있습니다.

*신규 기능 - 유연성 향상!* 이제 평가 작업을 위한 입력 프롬프트 데이터세트에 이미 가져온 자체 추론 응답을 가져와 어디서나 호스팅되는 모든 모델 또는 시스템을 평가할 수 있습니다(“자체 추론 응답 가져오기”). 이러한 응답은 Amazon Bedrock 모델 또는 Amazon Bedrock 외부에 호스팅된 모든 모델 또는 애플리케이션에서 올 수 있으며, 이를 통해 평가 작업에서 Amazon Bedrock 모델 호출을 우회하고, 애플리케이션의 모든 중간 단계를 최종 응답에 통합할 수 있습니다.

LLM-as-a-judge를 사용하면 몇 주에 달하는 시간을 절약하면서 저렴한 비용으로 인간과 유사한 평가 품질을 얻을 수 있습니다.

자세히 알아보려면 Amazon Bedrock 평가 페이지설명서를 참조하세요. 시작하려면 AWS Console에 로그인하거나 Amazon Bedrock API를 사용하면 됩니다.