Amazon SageMaker Clarify

ML 데이터 및 모델의 바이어스를 감지하고 모델 예측을 설명

입력 특성이 모델 예측에 어떻게 기여했는지 실시간으로 설명합니다.

데이터 준비 작업 중, 모델 훈련 직후, 배포된 모델에서 잠재적인 바이어스를 감지합니다.

배포 후 바이어스 및 특성의 중요도 변화를 파악합니다.

Amazon SageMaker Clarify는 기계 학습(ML) 개발자를 위한 목적별 도구를 제공합니다. 이러한 도구는 ML 훈련 데이터 및 모델에 대한 인사이트를 개선하는 데 도움이 됩니다. SageMaker Clarify는 다양한 지표를 사용하여 잠재적 바이어스를 감지하고 측정합니다. 따라서 ML 개발자는 잠재적 바이어스를 해결하고 모델 예측을 설명할 수 있습니다.

SageMaker Clarify는 데이터 준비 작업 중, 모델 훈련 직후, 그리고 배포된 모델에서 잠재적인 바이어스를 감지할 수 있습니다. 예를 들어 데이터 세트 또는 훈련 모델에서 나이와 관련된 바이어스를 확인하고 다른 유형의 잠재적 바이어스를 정량화한 상세 보고서를 받을 수 있습니다. 또한 SageMaker Clarify에는 모델 예측 방법을 설명하고 온라인 설명 가능성을 통해 대량 또는 실시간으로 설명 가능성 보고서를 생성하는 데 도움이 되는 특성 중요도 점수가 포함되어 있습니다. 이러한 보고서를 사용하여 고객 또는 내부 프레젠테이션을 지원하거나 모델의 잠재적 문제를 파악할 수 있습니다.

작동 방식

데이터 및 모델 예측의 바이어스 탐지

데이터에 존재하는 불균형 식별

SageMaker Clarify를 사용하면 Amazon SageMaker Data Wrangler의 일부로 자체 코드를 작성하지 않고도 데이터 준비 중에 잠재적 바이어스를 식별할 수 있습니다. 성별 또는 나이와 같은 입력 특성을 지정하면 SageMaker Clarify가 분석 작업을 실행하여 이러한 특성의 잠재적 바이어스를 탐지합니다. 그런 다음 SageMaker Clarify는 잠재적 바이어스의 지표 및 측정에 대한 설명이 담긴 시각적 보고서를 제공합니다. 따라서 바이어스를 해결하기 위한 조치를 확인할 수 있습니다. 예를 들어 한 연령대에 대한 사업 대출의 예가 극히 일부만 포함된 재무 데이터 세트에서, 데이터 세트의 불균형을 해결하고 특정 연령대에 대한 불균형적이고 부정확한 모델을 갖게 될 위험을 잠재적으로 줄일 수 있도록 바이어스 지표로 불균형을 표시합니다.

불균형이 발생할 경우 SageMaker Data Wrangler를 사용하여 데이터의 균형을 유지할 수 있습니다. SageMaker Data Wrangler는 3가지 밸런싱 연산자(무작위 과소 샘플링, 무작위 과다 샘플링, SMOTE)를 제공하여 불균형 데이터 세트의 데이터를 재조정합니다. 블로그 게시물에서 자세히 알아보세요.

훈련된 모델에 바이어스가 존재하는지 확인

모델을 훈련한 후 Amazon SageMaker Experiments를 통해 SageMaker Clarify 바이어스 분석을 실행하여 한 그룹에 대해 다른 그룹보다 더 자주 부정적인 결과를 생성하는 예측과 같은 잠재적 바이어스가 모델에 존재하는지 확인할 수 있습니다. 모델 결과에서 바이어스를 측정하고자 하는 대상과 관련된 입력 특성(예: 연령)을 지정할 수 있습니다. 그러면 SageMaker가 분석을 실행하고 각 특성의 다양한 바이어스 유형을 식별하는 시각적 보고서를 제공합니다. 예를 들면, 노령층 그룹을 더 젊은 연령 그룹보다 더 긍정적으로 예측하는지를 알 수 있습니다.

AWS 오픈 소스 메서드 Fair Bayesian Optimization은 모델의 하이퍼파라미터를 튜닝하여 바이어스를 완화하는 데 도움이 될 수 있습니다. 블로그 게시물을 읽고 Fair Bayesian Optimization을 적용하여 ML 모델의 정확성을 최적화하는 동시에 바이어스를 완화하는 방법에 대해 알아보세요.

모델에 바이어스가 존재하는지 모니터링

SageMaker Clarify는 데이터 사이언티스트 및 ML 엔지니어가 정기적으로 예측에 바이어스가 존재하는지 모니터링하는 데 도움이 됩니다. 바이어스는 훈련 데이터가 모델이 배포 중에 보는 라이브 데이터와 다를 때 배포된 ML 모델에서 유입되거나 악화될 수 있습니다. 예를 들어 모델을 훈련시키는 데 사용되는 주택담보대출 금리가 현재 주택담보대출 금리와 다를 경우 주택 가격 예측을 위한 모델의 결과는 편향될 수 있습니다. SageMaker Clarify 바이어스 감지 기능은 Amazon SageMaker Model Monitor에 통합되어 있으므로 SageMaker에서 특정 임계값을 초과하는 바이어스를 감지하면 자동으로 Amazon SageMaker Studio 및 Amazon CloudWatch 지표 및 경보를 통해 확인할 수 있는 지표를 생성합니다.

모델 예측 설명

모델 예측에 가장 많이 기여하는 특성 파악

SageMaker Clarify는 SageMaker Experiments와 통합되어 테이블 형식, 자연어 처리(NLP), 컴퓨터 비전 모델의 특정 입력에서 어떤 특성이 모델 예측에 가장 많이 기여했는지를 상세하게 보여주는 점수를 제공합니다. 테이블 형식의 데이터 세트의 경우 SageMaker Clarify에서 모델의 전반적인 예측 프로세스에 대한 인사이트를 제공하는 특성 중요도 집계 차트를 출력할 수도 있습니다. 이와 같은 세부 정보는 특정 모델 입력이 전체 모델 동작에 미칠 것으로 예상하는 것보다 더 많은 영향을 미치는지 확인하는 데 유용할 수 있습니다. 테이블 형식의 데이터의 경우 특성 중요도 점수 외에도 부분 종속성 플롯(PDP)을 사용하여 관심 있는 입력 특성 세트에 대한 예측 대상 반응의 종속성을 표시할 수도 있습니다.

컴퓨터 비전 및 NLP 모델 설명

SageMaker Clarify는 컴퓨터 비전 및 NLP 모델에 대한 인사이트도 제공할 수 있습니다. 비전 모델의 경우 SageMaker Clarify를 통해 모델에서 가장 중요한 이미지 부분을 확인할 수 있습니다. NLP 모델의 경우 SageMaker Clarify에서는 단어, 문장 또는 구 수준에서 특성 중요도 점수를 제공합니다.

모델 동작에 변화가 발생하는지 모니터링

라이브 데이터를 변경하면 모델의 새로운 동작이 노출될 수 있습니다. 예를 들어 한 지리적 지역의 데이터에 대해 훈련된 신용 위험 예측 모델은 다른 지역의 데이터에 적용할 때 다양한 특성에 할당하는 중요도를 변경할 수 있습니다. SageMaker Clarify는 SageMaker Model Monitor와 통합되어, 모델 동작이 변경되어 입력 특성의 중요도가 변경될 경우 CloudWatch와 같은 알림 시스템을 사용하여 통지합니다.

개별 모델 예측을 실시간으로 설명

SageMaker Clarify는 모델이 새로운 데이터에서 실행된 후 모델의 개별 예측에 어느 특성이 가장 많이 기여했는지 자세히 설명하는 점수를 제공할 수 있습니다. 이러한 세부 정보를 통해 특정 입력 특성이 예상보다 모델 예측에 더 많은 영향을 미쳤음을 확인할 수 있습니다. 각 예측에 대한 이러한 세부 정보를 실시간으로 온라인 설명 가능성에서 확인하거나 모든 개별 예측을 배치 처리하여 보고서를 대량으로 가져올 수 있습니다.

사용 사례

데이터 과학

데이터 사이언티스트와 ML 엔지니어는 더 나은 특성 추출을 통해 ML 모델을 디버그하고 개선하는 데 필요한 인사이트를 생성할 수 있는 도구를 필요로 합니다. 이러한 인사이트는 모델 추론이 불필요하거나 무관한 특성을 기반으로 수행되는지 여부를 결정하고 모델의 제한 사항과 모델에서 발생할 수 있는 장애 모드를 이해하는 데 도움이 됩니다.

비즈니스

AI 시스템을 도입하려면 투명성이 필요합니다. 이는 훈련된 모델과 예측에 대한 신뢰할 수 있는 설명을 통해 이룰 수 있습니다. 모델 설명 가능성은 금융 서비스, 인적 자원, 의료, 자동화 운송과 같이 신뢰성, 안전성, 규정 준수 요구 사항이 있는 특정 산업에 특히 중요할 수 있습니다.

규정 준수

기업은 특정 의사 결정을 설정하고 모델 위험 관리를 위한 조치를 취해야 할 수 있습니다. SageMaker Clarify는 초기 데이터 또는 훈련을 마친 모델에 존재할 수 있는 모든 바이어스를 감지하는 데 도움이 되며 어떤 모델 특성이 ML 모델의 예측에 가장 많이 기여했는지 설명하는 데 도움이 될 수 있습니다.

고객

분데스리가

AWS에서 지원하는 Bundesliga Match Facts는 전 세계 분데스리가 팬들에게 축구 경기가 진행될 동안 한층 더 몰입감 높은 팬 경험을 제공합니다. 이제 분데스리가는 Amazon SageMaker Clarify를 통해 핵심적이고 기본적인 일부 구성 요소가 무엇을 결정하고 있으며 어떤 요소가 ML 모델로 하여금 특정 기대 득점(xGoals) 값을 예측하도록 유도했는지 쌍방향으로 설명할 수 있습니다. 각 특성 속성을 파악하고 결과를 설명하면 모델이 디버깅을 수행하여 ML 알고리즘에 대한 신뢰도를 높이는 데 도움이 되며, 결국 예측 품질이 더 높아지게 됩니다.

“Amazon SageMaker Clarify는 Bundesliga Match Facts 디지털 플랫폼의 나머지 부분과 원활하게 통합되며 Amazon SageMaker 상에서 당사 ML 워크플로를 표준화하는 장기 전략의 중요한 일부입니다. 기계 학습과 같은 AWS의 혁신적인 기술을 사용하여 더욱 심층적인 인사이트를 제공하고 눈 깜짝할 사이에 내린 야심 찬 결정을 팬들이 보다 잘 이해할 수 있게 함으로써, Bundesliga Match Facts는 시청자들이 각 경기의 중요한 결정에 대한 더 깊은 인사이트를 얻을 수 있게 합니다."

Andreas Heyden, DFL Group(독일프로축구연맹)의 디지털 이노베이션 사업부 총괄부사장

capcom

CAPCOM은 몬스터 헌터 시리즈와 스트리트 파이터 같은 게임 타이틀로 유명한 일본의 게임 회사입니다. 사용자 만족도를 충족하기 위해 CAPCOM은 게임 품질을 보장하고 잠재적 이탈자와 이들의 동향을 식별해야 했습니다.

“AutoGluon과 Amazon SageMaker Clarify를 함께 사용한 덕에 고객 이탈율 모델에서 94%의 정확도로 고객 이탈율을 예측할 수 있었습니다. SageMaker Clarify는 SHAP 값을 통해 설명 가능성을 알려주는데, 이 기능은 모델 동작을 이해하는 데 도움이 됩니다. SageMaker Clarify를 사용한 후로 SHAP 값의 계산 비용이 로컬 계산과 비교할 때 최대 50% 절감되었습니다. 이 공동 솔루션을 사용하면 높은 수준의 정확도와 더 저렴한 비용으로 모델에 대한 이해도를 높이고 고객 만족도를 개선할 수 있습니다."

Masahiro Takamoto, CAPCOM 데이터 그룹 책임자

DOMO

Domo는 모든 사용자를 위한 현대적 BI를 제공하여 비즈니스 관리 방식을 전환하는 비즈니스 클라우드입니다. Domo를 사용하면 몇 주 또는 몇 개월 이상 걸리는 중요한 프로세스를 엄청난 규모로 몇 분 또는 몇 초 내에 즉시 완료할 수 있습니다.

“Domo는 누구나 손쉽게 사용하고 이해할 수 있는 데이터 과학 솔루션 제품군을 제공하는 회사입니다. Clarify는 AI 모델이 예측을 생성하는 방식에 대한 중요한 인사이트를 제공해줍니다. Clarify와 Domo의 결합은 비즈니스 및 에코시스템에서 누구나 사용할 수 있는 AI 기능을 제공하여 AI 속도와 인텔리전스를 개선하는 데 도움이 됩니다.”

Ben Ainscough 박사, Domo AI 및 데이터 과학 책임자

Varo

Varo Bank는 미국에 소재한 디지털 은행으로, AI/기계 학습을 사용하여 신속한 위험 기반 결정을 내림으로써 고객에게 혁신적인 제품 및 서비스를 제공하고 있습니다.

“Varo는 우리 ML 모델의 설명 가능성과 투명성에 대해 강한 책임감을 느끼고 있으며 이러한 노력을 펼쳐나감에 있어 Amazon SageMaker Clarify로부터 도출되는 결과를 확인할 생각에 정말 흥분됩니다.”

Sachin Shetty, Varo Money 데이터 과학 책임자

리소스

동영상

ML 모델 예측 및 바이어스 이해

웨비나

ML 모델 설명에 대한 60분 웨비나 보기

자습서

단계별 지침 수행하기

블로그

Amazon SageMaker Clarify에서 바이어스를 어떻게 감지하는지 알아보기

예시 노트북

코드 샘플 둘러보기

개발자 안내서

기술 설명서 읽어보기

백서

바이어스 감지 및 모델 설명 가능성에 대한 심층 분석

백서

금융 부분 ML의 공정성 측정

새로운 소식

날짜(최신순)
  • 날짜(최신순)
결과를 찾을 수 없음
1