Amazon SageMaker Clarify

모델 평가 및 모델 예측 설명

Amazon SageMaker Clarify란 무엇인가요?

Amazon SageMaker Clarify는 모델 품질을 개선하고 책임 있는 AI 이니셔티브를 지원하기 위해, 정확성, 견고성, 유해성 및 편향성과 같은 지표를 기반으로 ML 모델 및 데이터에 대한 더 많은 인사이트를 도출하는 목적별 도구를 제공합니다. 생성형 AI의 등장으로 데이터 사이언티스트와 ML 엔지니어는 일반에 공개된 파운데이션 모델(FM)을 활용하여 출시 속도를 높일 수 있습니다. Amazon SageMaker Clarify는 몇 분 내에 다양한 작업에서 다양한 기준에 따라 사용 사례에 가장 적합한 FM을 신속하게 평가, 비교 및 선택할 수 있는 FM 평가 기능을 지원하므로, 사용 사례에 적합한 FM을 직접 평가하고 선택하는 번거로운 과정을 없앨 수 있습니다. 따라서 FM을 더 빨리, 자신 있게 도입할 수 있습니다. 테이블 형식, 컴퓨터 비전 및 시계열 모델의 경우 SageMaker Clarify는 모델 개발 또는 사후 모델 배포 시에 모델을 설명하는 기능을 제공합니다. 편향 및 설명 가능성 보고서를 사용하여 잠재적 문제를 식별할 수 있으므로, 정확도를 개선하고 편향을 없애고 성능을 높이는 데 집중할 수 있습니다.

SageMaker Clarify의 이점

정확성, 견고성, 유해성과 같은 지표를 사용하여 생성형 AI 사용 사례에 대해 FM을 자동으로 평가함으로써 책임 있는 AI 이니셔티브를 지원합니다. 정교한 인간의 판단이 필요한 기준 또는 미묘한 콘텐츠의 경우, 자체 인력을 활용하거나 AWS에서 제공하는 관리형 인력을 사용하여 모델 응답을 검토할 수 있습니다.
모델 개발 및 추론 중에 입력 기능이 모델 예측에 어떻게 기여하는지 설명합니다. 자동 평가 및 인적 평가를 사용하여 맞춤화 중에 FM을 평가합니다.
FM 맞춤화 및 MLOps 워크플로 전반에 걸쳐 이해하기 쉬운 지표, 보고서 및 예제를 생성합니다.
ISO 42001과 같은 지침에 따라 데이터 준비, 모델 사용자 지정 및 배포된 모델에서 잠재적 편향 및 기타 위험을 탐지합니다.

기초 모델 평가

평가 마법사 및 보고서

평가 마법사 및 보고서

평가를 시작하려면 모델, 태스크 및 평가 유형(인간 기반 또는 자동 보고)을 선택합니다. 평가 결과를 활용하여 사용 사례에 가장 적합한 모델을 선택하고, 프롬프트 엔지니어링, 인간 피드백을 통한 강화 학습(RLHF), 검색 증강 생성(RAG), 지도형 미세 조정(SFT)과 같은 모델 사용자 지정 기법의 영향을 정량화합니다. 평가 보고서에는 여러 차원에 걸친 점수가 요약되므로 신속하게 비교하고 결정할 수 있습니다. 더 자세한 보고서에는 최고 점수 및 최저 점수 모델 결과의 예가 제공되므로 추가로 최적화할 영역에 집중할 수 있습니다.
사용자 지정

사용자 지정

CrowS-Pairs, TriviaQA, WikiText와 같은 큐레이트된 데이터 세트와 Bert-Score, Rouge, F1과 같은 큐레이트된 알고리즘을 사용하여 빠르게 시작할 수 있습니다. 자체 프롬프트 데이터 세트와 점수 산정 알고리즘을 생성형 AI 애플리케이션에 맞게 사용자 지정할 수 있습니다. GitHub에서 오픈 소스 라이브러리로 자동 평가를 사용할 수 있으므로 어디서나 실행할 수 있습니다. 샘플 노트북은 AWS에서 호스팅되지 않은 모델을 포함하여 모든 FM에 대해 프로그래밍 방식으로 평가를 실행하는 방법과 FM 평가를 SageMaker MLOps와 SageMaker Pipelines, SageMaker Model Registry, SageMaker Model Cards와 같은 거버넌스 도구와 통합하는 방법을 보여줍니다.
사람 기반 평가

사람 기반 평가

일부 평가 기준은 미묘하거나 주관적이어서 평가하려면 사람의 판단이 필요합니다. 자동화된 지표 기반 평가 외에도 사람(자체 직원 또는 AWS에서 관리하는 평가 팀)에게 유용성, 어조, 브랜드 표현 준수 등의 측면에서 모델 출력을 평가하도록 요청할 수 있습니다. 인간 평가자는 회사별 지침, 명명법 및 브랜드 표현과의 일관성을 확인할 수도 있습니다. 사용자 지정 지침을 설정하여 평가 팀에 프롬프트를 평가하는 방법(예: 순위를 매기거나 추천 및 비추천을 표시하는 방법)을 안내할 수 있습니다.
모델 품질 평가

모델 품질 평가

자동 및 인간 기반 평가를 사용한 FM 평가를 통해 FM이 특정 생성형 AI 태스크에 대한 고품질 응답을 제공하는지 확인할 수 있습니다. 요약, 질문 답변(Q&A), 분류 등 특정 생성형 AI 태스크에 맞게 조정된 특정 평가 알고리즘(예: Bert Score, Rouge, F1)으로 모델 정확도를 평가합니다. ButterFingers, 무작위 대문자, 공백 추가 제거와 같이 입력에 의미 체계 보존 섭동이 요구되는 경우 FM 출력의 의미론적 견고성을 확인할 수 있습니다.
모델 책임 평가

모델 책임 평가

자동 및 인간 기반 평가를 사용하여 FM이 인종 및 피부색, 성별 및 성 정체성, 성적 취향, 종교, 연령, 국적, 장애, 외모, 사회경제적 지위 범주에 따라 고정 관념을 인코딩했을 위험을 평가할 수 있습니다. 유해 콘텐츠의 위험도 평가할 수 있습니다. 서술형 생성, 요약, 질문 답변을 포함하여 콘텐츠 생성과 관련된 모든 작업에 이러한 평가를 적용할 수 있습니다.

모델 예측

SageMaker Experiments에서 훈련된 모델에 대한 피처 중요도 그래프의 스크린샷

모델 예측 설명

Sag