Amazon Bedrock Model Evaluation, LLM-as-a-judge 도입(평가판)
Amazon Bedrock Model Evaluation을 사용하면 파운데이션 모델을 평가 및 비교한 후 사용 사례에 가장 적합한 모델을 선택할 수 있습니다. 새로운 평가 기능인 LLM-as-a-Judge가 이제 평가판으로 제공됩니다. 따라서 LLM을 심사자로 선택하여 평가자 모델과 평가 대상 모델의 올바른 조합을 확보할 수 있습니다. Amazon Bedrock에서 사용 가능한 여러 심사자 LLM 중에서 선택할 수 있습니다. 또한 정확성, 완전성, 전문적인 스타일 및 어조와 같은 큐레이션된 품질 지표와 유해성 및 답변 거부와 같은 책임 있는 AI 지표도 선택할 수 있습니다. 이제 자체 프롬프트 데이터세트를 가져와 데이터에 맞게 평가를 사용자 지정할 수 있으며, 평가 작업 전반의 결과를 비교하여 의사 결정을 가속화라 수 있습니다.
지금까지는 정확한 문자열 매칭 및 기타 기존 NLP 지표를 사용한 자동 평가와 인간 기반 모델 평가 중에서 선택할 수 있었습니다. 이러한 방법은 빠르긴 했지만 인간 평가자와 강력한 연관성을 제공하지는 못했습니다. 이제 LLM-as-a-Judge를 사용하면 완전한 인간 기반 평가보다 훨씬 저렴한 비용으로 인간과 유사한 평가 품질을 얻을 수 있으며 몇 주에 달하는 시간도 절약할 수 있습니다. 기본 제공되는 지표를 사용하여 데이터세트의 객관적인 사실을 평가하거나 글쓰기 스타일과 어조에 대한 주관적 평가를 수행할 수 있습니다.
사용 가능한 AWS 리전을 비롯하여 Amazon Bedrock Model Evaluation의 새로운 LLM-as-a-judge 기능에 대해 자세히 알아보려면 AWS 뉴스 블로그와 Amazon Bedrock 평가 페이지로 이동하세요. 시작하려면 AWS Management Console에 로그인하거나 Amazon Bedrock API를 사용하시기 바랍니다.