Amazon SageMaker Clarify

ML 모델의 바이어스를 탐지하고 모델 예측을 이해

Amazon SageMaker Clarify는 기계 학습 개발자에게 훈련 데이터 및 모델에 대한 더 높은 가시성을 제공하여 바이어스를 식별 및 제한하고 예측을 설명할 수 있게 합니다.

바이어스는 연령 또는 소득 계층과 같은 다양한 그룹 전반에서 훈련 데이터 또는 모델의 예측 동작에 불균형이 존재함을 의미합니다. 바이어스는 모델 훈련에서 사용되는 데이터 또는 알고리즘으로 인해 발생할 수 있습니다. 예를 들어, 중년 개인에 대한 데이터를 기본으로 ML 모델을 훈련하는 경우 청년 및 고령층과 관련된 예측을 할 때 정확성이 떨어질 수 있습니다. 기계 학습 필드는 데이터 및 모델에서 바이어스를 감지 및 측정하여 해결할 수 있는 기회를 제공합니다. 그리고 모델의 해당 예측 이유를 설명하기 위해 모델 입력의 중요도를 살펴볼 수 있습니다.

Amazon SageMaker Clarify는 데이터 준비 작업 동안, 모델 훈련 직후 그리고 지정한 속성을 조사함으로써 배포된 모델에서 잠재적인 바이어스를 감지합니다. 예를 들어, 초기 데이터 세트와 훈련 모델에서 나이와 관련된 바이어스를 확인하고 다른 유형의 가능한 바이어스를 정량화한 상세 보고서를 받을 수 있습니다. SageMaker Clarify에는 모델 예측을 설명하는 데 도움이 되는 피처 중요도 그래프가 포함되어 있으며 내부 프레젠테이션을 지원하거나 수정 조치를 취할 수 있도록 모델의 문제점을 식별하는 데 사용할 수 있는 보고서를 생성합니다.

데이터 및 모델에서 바이어스 탐지

데이터에 존재하는 불균형 식별

SageMaker Clarify는 Amazon SageMaker Data Wrangler에 통합되므로 데이터 준비 과정 동안 쉽게 바이어스를 식별할 수 있습니다. 성별 또는 연령과 같은 관심 있는 속성을 지정하면 SageMaker Clarify가 알고리즘 세트를 실행하여 해당 속성에 존재하는 모든 바이어스를 탐지합니다. 알고리즘이 실행되고 나면, SageMaker Clarify는 가능한 바이어스의 소스 및 측정에 대한 설명이 담긴 시각적 보고서를 제공합니다. 따라서 바이어스를 해결하기 위한 조치를 확인할 수 있습니다. 예를 들면, 다른 그룹과 비교한 한 연령 그룹의 비즈니스 대출 사례를 몇 가지만 포함하는 재무 데이터 세트에서 SageMaker는 불균형에 플래그를 지정하므로 해당 연령 그룹에 적합하지 않은 모델을 피할 수 있습니다.

훈련된 모델에 바이어스가 존재하는지 확인

또한 다른 그룹보다 더 자주 부정적인 결과를 생성하는 예측과 같은 바이어스가 훈련된 모델에 존재하는지 확인할 수 있습니다. SageMaker Clarify는 SageMaker Experiments와 통합되므로 모델이 훈련되고 나면 바이어스(예: 연령)를 확인하고자 하는 속성을 식별할 수 있습니다. SageMaker는 알고리즘 세트를 실행하여 훈련된 모델을 확인하고 각 속성의 다양한 바이어스 유형을 식별하는 시각적 보고서를 제공합니다. 예를 들면, 노령층 그룹이 더 젊은 연령 그룹보다 더 긍정적인 예측을 수신하는지 여부를 알 수 있습니다.

모델에 바이어스가 존재하는지 모니터링

초기 데이터 또는 모델에는 바이어스가 없을 수 있지만, 환경이 바뀌는 경우 이미 훈련된 모델에 바이어스가 유입될 수 있습니다. 예를 들어, 주택 구매자 인구통계 정보에 상당한 변화가 발생하면, 특정 그룹이 존재하지 않거나 최초 훈련 데이터에 정확하게 나타나지 않을 경우 주택 대출 애플리케이션 모델에 바이어스가 생길 수 있습니다. SageMaker Clarify는 SageMaker Model Monitor에 통합되므로, Amazon CloudWatch와 같은 알림 시스템을 구성하여 해당 모델이 특정 바이어스 지표 임계값을 초과하는 경우 이에 대한 알림을 제공할 수 있습니다. 

모델 동작 설명

모델 이해하기

훈련된 모델은 예측 생성 시 일부 모델 입력을 다른 입력보다 더 강력한 것으로 간주할 수 있습니다. 예를 들면, 대출 애플리케이션은 다른 인자들보다 신용 기록에 더 큰 비중을 둘 수 있습니다. SageMaker Clarify는 SageMaker Experiments에 통합되어 모델이 훈련되고 난 후 어떤 피처가 해당 모델의 전체적인 예측 수행 프로세스에 가장 많이 기여했는지를 상세하게 보여주는 그래프를 제공합니다. 이와 같은 세부 정보는 규정 준수 요건에 유용하거나 특정 모델 입력이 전체 모델 동작에 미쳐야 하는 것보다 더 많은 영향을 미치는지 확인하는 데 유용할 수 있습니다.

모델 동작에 변화가 발생하는지 모니터링

실제 데이터에 변화가 발생하면 해당 모델이 모델 입력에 다양한 가중치를 부여할 수 있으며, 이로 인해 시간 경과에 따라 모델 동작이 변할 수 있습니다. 예를 들면, 주택 가격이 하락하면 대출 예측 수행 시 모델은 소득에 대한 가중치를 낮춥니다. Amazon SageMaker Clarify는 SageMaker Model Monitor와 통합되어 모델 입력의 중요도가 바뀜으로 인해 모델 동작에 변화가 발생할 경우 알림을 제공합니다.

개별 모델 예측 설명

고객 및 내부 이해관계자 모두 모델이 어떻게 예측을 수행하는지 투명하게 알고 싶어 합니다. SageMaker Clarify는 SageMaker Experiments와 통합되어 특정 예측에 대한 각 모델 입력의 중요도를 표시합니다. 결과가 고객을 상대하는 직원에게 제공되므로 해당 직원은 모델 예측을 기반으로 의사 결정 시 모델의 동작을 이해할 수 있습니다.

사용 사례

규제 준수 보장

Equal Credit Opportunity Act(ECOA) 또는 Fairness in Housing Act와 같은 규정에 따라 기업은 재무 결정에 대한 설명을 제공하고 모델 위험 평가에 대한 조치를 취할 수 있어야 합니다. Amazon SageMaker Clarify는 초기 데이터 또는 훈련을 마친 모델에 존재할 수 있는 모든 바이어스에 플래그를 지정하는 데 도움이 되며 어떤 모델 피처가 ML 모델의 예측에 가장 많이 기여했는지 설명하는 데도 도움이 될 수 있습니다.

내부 보고 및 규정 준수

데이터 사이언스 팀은 흔히 내부 감사자 또는 경영진과 같은 내부 이해관계자들에게 ML 모델을 설명하거나 그에 대한 근거를 제시해야 합니다. Amazon SageMaker Clarify는 요청 시 피처 중요도의 그래프를 데이터 사이언스 팀에 제공할 수 있으며 훈련에 사용되는 ML 모델 또는 데이터에 존재할 수 있는 바이어스를 정량화하여 내부 요건을 뒷받침하는 데 필요한 추가 정보를 제공할 수 있습니다.

고객 서비스

금융 자문이나 대출 책임자와 같이 고객을 상대하는 직원들은 업무 과정의 일환으로 ML 모델이 수행하는 예측을 검토할 수 있습니다. 이러한 직원들은 데이터 사이언스 팀과 협업하여 Amazon SageMaker Clarify에서 바로 API를 통해 어떤 피처가 특정 예측에 가장 중요했는지에 대한 세부 정보가 담긴 시각적 보고서를 받아볼 수 있으며, 이 덕분에 고객에게 영향을 미칠 수 있는 결정을 하기 전에 보고서를 미리 살펴볼 수 있습니다.

고객 사례

Varo Bank는 미국에 소재한 디지털 은행으로, AI/ML을 사용하여 신속한 위험 기반 결정을 내림으로써 고객에게 혁신적인 제품 및 서비스를 제공하고 있습니다.

“Varo는 우리 ML 모델의 설명 가능성과 투명성에 대해 강한 책임감을 느끼고 있으며 이러한 노력을 펼쳐나감에 있어 Amazon Sagemaker Clarify로부터 도출되는 결과를 확인할 생각에 정말 흥분됩니다.”

Sachin Shetty, 데이터 사이언스 책임자, Varo Money

AWS에서 지원하는 Bundesliga Match Facts는 전 세계 분데스리가 팬들에게 축구 경기가 진행될 동안 한층 더 몰입감 높은 팬 경험을 제공합니다. 이제 분데스리가는 Amazon SageMaker Clarify를 통해 핵심적이고 기본적인 일부 구성 요소가 무엇을 결정하고 있으며 어떤 요소가 ML 모델로 하여금 특정 기대 득점(xGoals) 값을 예측하도록 유도했는지 쌍방향으로 설명할 수 있습니다. 각 피처 속성을 파악하고 결과를 설명하면 모델이 디버깅을 수행하여 ML 알고리즘에 대한 신뢰도를 높이는 데 도움이 되며, 결국 예측 품질이 더 높아지게 됩니다.

“Amazon SageMaker Clarify는 Bundesliga Match Facts 디지털 플랫폼의 나머지 부분과 원활하게 통합되며 Amazon SageMaker 상에서 당사 ML 워크플로를 표준화하는 장기 전략의 중요한 일부입니다. 기계 학습과 같은 AWS의 혁신적인 기술을 사용하여 더욱 심층적인 인사이트를 제공하고 눈 깜짝할 사이에 내린 야심 찬 결정을 팬들이 보다 잘 이해할 수 있게 함으로써, Bundesliga Match Facts는 시청자들이 각 경기의 중요한 결정에 대한 더 깊은 인사이트를 얻을 수 있게 합니다."

Andreas Heyden, DFL Group(독일프로축구연맹)의 디지털 이노베이션 사업부 총괄부사장

"Zopa는 영국에 소재한 디지털 은행이자 P2P 대출 기관입니다. 사기 감지 애플리케이션과 같은 기계 학습 애플리케이션에서는 각 인자가 모델의 결정에 어떻게 기여하는지 이해하는 것이 중요합니다. 모델의 추론에 대한 가시성을 확보하면 당사의 내외부 이해관계자들에게 믿음과 확신을 줄 수 있습니다. 또한 당사 영업 팀이 더욱 빠르게 대응할 수 있게 하며 고객들에게도 더 나은 서비스를 제공할 수 있습니다. 이제 Amazon SageMaker Clarify를 통해 모델 설명을 더욱 빠르고 원활하게 생성할 수 있습니다.”

Jiahang Zhong, 데이터 사이언스 책임자, Zopa

Amazon SageMaker Clarify 시작하기