Amazon Web Services 한국 블로그

Amazon Bedrock Model Evaluation (모델 평가) 기능 정식 출시

AWS re:Invent 2023에서 미리 보기로 출시 했던, Amazon Bedrock Model Evaluation (모델 평가) 기능이 정식 출시 되었습니다. 이 기능은 사용자의 특정 사용 사례에 가장 적합한 결과를 제공하는 파운데이션 모델을 선택할 수 있게 해줌으로써 생성형 AI를 애플리케이션에 통합하도록 도와줍니다.

제 동료인 Antje가 미리 보기 출시 글를 통해 설명한 내용을 참고해주세요.

모델 평가는 개발의 모든 단계에서 매우 중요합니다. 개발자로서 사용자는 이제 생성형 인공 지능(AI) 애플리케이션 구축에 사용할 수 있는 평가 도구를 가지게 되었습니다. 우선 놀이터 환경에서 다양한 모델을 실험해 볼 수 있습니다. 반복 속도를 높이려면 모델의 자동 평가를 추가합니다. 그런 다음 최초 출시 또는 한정판 출시를 준비할 때 품질 보장에 유용하도록 인적 검토를 통합할 수 있습니다.

평가판을 공개한 기간 동안 우리는 훌륭하고 유용한 피드백을 많이 받았고 오늘 진행되는 출시를 준비하면서 피드백을 적용하여 이 새로운 기능의 특징들을 완성하였습니다. 이 부분에 대해서는 잠시 후에 설명하겠습니다. 짧게 요약하면 기본적인 단계는 다음과 같습니다.

모델 평가 작업 생성 – 평가 방법(자동 또는 사람)을 선택하고, 사용 가능한 파운데이션 모델 중 하나를 선택하고, 작업 유형을 선택하고, 평가 지표를 선택합니다. 자동 평가의 경우에는 정확도, 견고성, 유해성을 선택할 수 있고, 사람이 직접 평가할 경우에는 원하는 지표(예: 친근감, 스타일, 브랜드 보이스 준수도)를 선택할 수 있습니다. 인적 평가를 선택할 경우 자체 작업 팀을 사용하거나 AWS에서 관리하는 팀을 선택할 수 있습니다. 기본 작업 유형 네 가지와 사용자 지정 유형(여기에 표시되지 않음)이 있습니다.

작업 유형을 선택한 후 모델의 성능을 평가하는 데 사용할 지표와 데이터세트를 선택합니다. 예를 들어 텍스트 분류를 선택하면 자체 데이터세트나 기본 제공 데이터세트를 기준으로 하여 정확성이나 견고성을 평가할 수 있습니다.

위에서 볼 수 있듯이 기본 제공 데이터세트를 사용하거나 JSON Lines(JSONL) 형식으로 새 데이터세트를 준비할 수 있습니다. 각 항목에 프롬프트가 포함되어야 하고 범주를 포함시킬 수 있습니다. 모든 인적 평가 구성에서, 그리고 자동 평가의 경우 작업 유형과 지표의 일부 조합에서 참조 응답은 선택 사항입니다.

{
  "prompt" : "Bobigny is the capitol of",
  "referenceResponse" : "Seine-Saint-Denis",
  "category" : "Capitols"
}

여러분(또는 현지의 주제 전문가)은 여러분의 조직과 사용 사례에 맞는 고객 지원 질문, 제품 설명, 또는 판매 자료를 사용하는 데이터세트를 만들 수 있습니다. 기본 제공 데이터세트에는 Real Toxicity, BOLD, TREX, WikiText-2, Gigaword, BoolQ, Natural Questions, Trivia QA, Women’s Ecommerce Clothing Reviews가 있습니다. 이러한 데이터세트들은 특정 유형의 작업과 지표를 테스트하도록 설계되었으며 이 가운데에서 적절히 선택할 수 있습니다.

모델 평가 작업 실행 – 작업을 시작한 후 완료될 때까지 기다립니다. 콘솔에서 각 모델 평가 작업의 상태를 검토하고, 새 GetEvaluationJob API 함수를 사용하여 그 상태에 액세스할 수도 있습니다.

평가 보고서 검색 및 검토 – 보고서를 받아서 앞서 선택한 지표들과 비교하여 모델의 성능을 검토합니다. 샘플 보고서에 대한 자세한 내용은 Antje의 게시물을 참조하십시오.

새로운 기능
모든 것이 끝났으면, 이제 정식 출시를 준비하면서 추가한 신규 기능들을 살펴보겠습니다.

작업 관리 개선 – 이제 콘솔 또는 새 모델 평가 API를 사용하여 실행 중인 작업을 중지할 수 있습니다.

모델 평가 API — 이제 모델 평가 작업을 프로그래밍 방식으로 생성하고 관리할 수 있습니다. 다음과 같은 기능을 사용할 수 있습니다.

  • CreateEvaluationJobevaluationConfiginferenceConfig 등 API 요청에 지정된 파라미터를 사용하여 모델 평가 작업을 생성하고 실행합니다.
  • ListEvaluationJobs – 생성 시간과 평가 작업 이름, 상태별로 필터링과 정렬 옵션을 사용하여 모델 평가 작업들을 나열합니다.
  • GetEvaluationJob – 상태(InProgress(진행 중), Completed(완료됨), Failed(실패함), Stopping(중지 중), 또는 Stopped(중지됨)) 등 모델 평가 작업의 속성들을 검색합니다. 작업이 완료되면 평가 결과는 CreateEvaluationJob에 제공되는 outputDataConfig 속성에 지정된 S3 URI에 저장됩니다.
  • StopEvaluationJob – 진행 중인 작업을 중지합니다. 중지된 작업은 재개할 수 없으며 작업을 다시 실행하려면 새로 생성해야 합니다.

이 모델 평가 API는 평가판 기간 동안 가장 많이 요청 받은 기능들 중 하나였습니다. 이것을 사용하여 예를 들어 애플리케이션의 개발 또는 테스트 계획의 일부로 대규모 평가를 수행할 수 있습니다.

보안 강화 – 이제 고객 관리형 KMS 키를 사용하여 평가 작업 데이터를 암호화할 수 있습니다(이 옵션을 사용하지 않으면 데이터가 AWS가 소유한 키를 사용하여 암호화됨).

더 많은 모델에 액세스 – 이제 AI21 Labs, Amazon, Anthropic, Cohere, Meta의 기존 텍스트 기반 모델 외에 Claude 2.1에도 액세스할 수 있습니다.

모델을 선택한 후, 모델 평가 작업에 사용할 추론 구성을 설정할 수 있습니다.

알아야 할 사항
Amazon Bedrock의 이 멋진 새 기능과 관련해서 몇 가지 알아두어야 할 사항이 있습니다.

가격 – 알고리즘에 의해 생성된 점수에 대한 추가 비용 없이, 모델 평가 과정에서 수행한 추론에 대해 비용을 지불합니다. 자체 팀을 활용한 인간 기반 평가를 사용할 경우, 완료한 각 작업에 대해 추론에 대한 비용과 $0.21를 지불하게 됩니다(인간 작업자가 인간 평가 사용자 인터페이스에서 단일 프롬프트에 대한 평가와 관련 추론 응답을 제출함). AWS 관리형 작업 팀이 수행하는 평가에 대한 요금은 평가에 있어서 중요한 데이터세트, 작업 유형 및 지표를 기반으로 합니다. 더 자세한 내용은 Amazon Bedrock 요금 페이지를 참조하세요.

지역 – 모델 평가는 미국 동부(버지니아 북부)와 미국 서부(오레곤) AWS 리전에서 사용할 수 있습니다.

더 많은 GenAI – Amazon의 새로운 GenAI 스페이스를 방문하여 이 기능과 오늘 발표하는 다른 발표 내용들에 대해 알아보세요!

Jeff;