Amazon Web Services 한국 블로그

Amazon Bedrock – 파운데이션 모델 평가 기능 출시 (미리보기)

이제 Amazon Bedrock에서의 고객의 사용 사례에 가장 적합한 파운데이션 모델(FM)을 평가, 비교 및 선택할 수 있다는 소식을 알려드리게 되어 기쁩니다. Amazon Bedrock에서의 모델 평가 기능은 현재 평가판으로 사용 가능합니다.

Amazon Bedrock은 자동 평가와 인적 평가 중에서 선택할 수 있는 옵션을 제공합니다. 정확도, 견고성, 독성과 같은 사전 정의된 지표로 자동 평가를 사용할 수 있습니다. 친근감, 스타일, 브랜드 보이스와의 연계 등의 주관적 또는 사용자 지정 지표의 경우에는 클릭 몇 번이면 인적 평가 워크플로를 설정할 수 있습니다.

모델 평가는 개발의 모든 단계에서 매우 중요합니다. 개발자로서 사용자는 이제 생성형 인공 지능(AI) 애플리케이션 구축에 사용할 수 있는 평가 도구를 가지게 되었습니다. 우선 놀이터 환경에서 다양한 모델을 실험해 볼 수 있습니다. 반복 속도를 높이려면 모델의 자동 평가를 추가합니다. 그런 다음 최초 출시 또는 한정판 출시를 준비할 때 품질 보장에 유용하도록 인적 검토를 통합할 수 있습니다.

Amazon Bedrock의 모델 평가에 대해 간단히 살펴봅시다.

자동 모델 평가
자동 모델 평가 기능을 사용하면 콘텐츠 요약, 질문 및 답변, 텍스트 분류, 텍스트 생성 등의 특정 작업에 대해 자체 데이터를 가져오거나 선별된 내장 데이터 세트 및 사전 정의된 지표를 사용할 수 있습니다. 이를 통해 모델 평가 벤치마크를 직접 설계 및 실행하는 번거로운 수고를 덜어줍니다.

시작하려면 Amazon Bedrock 콘솔로 이동한 다음 좌측 메뉴에서 Model Evaluation(모델 평가)Assessment & Deployment(평가 및 배포) 아래에서 선택합니다. 새 모델 평가를 생성하고 Automatic(자동)을 선택합니다.

Amazon Bedrock 모델 평가

다음으로 설정 대화상자에 따라 평가하려는 FM과 작업 유형(예: 텍스트 요약)을 선택합니다. 평가 지표를 선택하고 내장 데이터 세트 또는 자체 데이터 세트를 지정합니다.

자체 데이터 세트를 가져오는 경우 JSON 라인 형식이어야 하며, 각 행에는 평가하려는 모델 차원에 대해 모델 평가에 사용될 키-값 쌍이 모두 포함되어 있어야 합니다. 예를 들어 질문-답변 작업에서 모델을 평가하려는 경우 데이터 형식을 다음과 같이 지정합니다(category는 선택 사항).

{"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"}
{"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"}
{"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"}
...

그런 다음 평가 작업을 생성 및 실행하여 모델의 작업별 성능을 파악합니다. 평가 작업이 완료되면 모델 평가 보고서에서 결과를 검토할 수 있습니다.

Amazon Bedrock 모델 평가

인적 모델 평가
인적 평가의 경우 Amazon Bedrock에서 클릭 몇 번으로 인적 검토 워크플로를 설정하도록 할 수 있습니다. 자체 데이터 세트를 가져와 관련성, 스타일, 브랜드 보이스와의 연계 등의 맞춤형 평가 지표를 정의할 수 있습니다. 또한 내부 팀을 검토자로 활용하거나 AWS 관리 팀을 참여시킬 수도 있습니다. 이를 통해 인적 평가 워크플로를 구축 및 운영하는 데 드는 지루한 수고를 덜어줍니다.

시작하려면 새 모델 평가를 생성하고 Human: Bring your own work team(인적: 자체 팀 불러오기) 또는 Human: AWS Managed work team(인적: AWS 관리형 팀)을 선택합니다.

인적 평가를 위해 AWS 관리형 팀을 선택하는 경우, 연락처 정보와 함께 작업 유형, 작업 팀의 전문성, 대략적인 프롬프트 수 등 모델 평가 요구 사항을 설명합니다. 다음 단계에서는 AWS 전문가가 모델 평가 프로젝트 요구 사항에 대해 더 자세히 논의하기 위해 연락을 드릴 것입니다. 검토 후, 팀은 맞춤형 견적 및 프로젝트 일정을 공유합니다.

자체 팀을 불러오기로 결정했다면 설정 대화상자에 따라 평가하려는 FM과 작업 유형(예: 텍스트 요약)을 선택합니다. 다음으로 평가 지표를 선택하고 테스트 데이터 세트를 업로드한 다음, 작업 팀을 설정합니다.

사람이 직접 평가하는 경우 이전에 표시된 예제 데이터를 다음과 같은 JSON 라인 형식으로 다시 포맷할 수 있습니다(category 및 referenceResponse는 선택 사항).

{"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"}
{"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"}
{"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"}

인적 평가가 완료되면 Amazon Bedrock은 선택한 지표에 대한 모델 성능이 포함된 평가 보고서를 생성합니다.

Amazon Bedrock 모델 평가

알아야 할 사항
다음은 알아두어야 할 몇 가지 주요 사항입니다.

모델 지원 – 미리 보기 중에 Amazon Bedrock에서 제공되는 텍스트 기반 대규모 언어 모델(LLM)을 평가 및 비교할 수 있습니다. 미리 보기 중에 각 자동 평가 작업에 대해 하나의 모델을 선택하고, 자체 팀을 사용하여 각 인적 평가 작업에 대해 최대 두 개의 모델을 선택할 수 있습니다. AWS 관리 팀을 사용한 인적 평가라면 사용자 지정 프로젝트 요구 사항을 지정할 수 있습니다.

요금 – 평가판 기간 동안 AWS는 평가 수행에 필요한 모델 추론에 대해서만 요금을 청구합니다(온디맨드 요금의 처리된 입력 및 출력 토큰). 인적 평가 또는 자동 평가에 대해서는 별도의 요금이 부과되지 않습니다. Amazon Bedrock 요금에서 모든 세부 정보를 확인하세요.

평가판에 참여하기
자체 작업 팀을 통한 자동 평가 및 인적 평가가 오늘 미국 동부(버지니아 북부) 및 미국 서부(오레곤) AWS 리전에서 공개 평가판으로 출시됩니다. AWS 관리 팀을 사용한 인적 평가는 미국 동부(버지니아 북부) AWS리전에서 공개 평가판으로 출시됩니다. 자세히 알아보려면 Amazon Bedrock Developer Experience(Amazon Bedrock 개발자 경험) 웹 페이지를 방문하여 사용 설명서를 확인하세요.

시작하기
지금 바로 AWS Management Console에 로그인하여 Amazon Bedrock에서 모델 평가를 탐색해 보십시오!

— Antje