Amazon SageMaker Clarify

检测 ML 模型中的偏差并了解模型预测

Amazon SageMaker Clarify 可让机器学习开发人员进一步掌控训练数据和模型,从而识别和限制偏差并解释做出相关预测的原因。

偏差是指对不同群体(如年龄或收入阶层)进行数据训练或模型预测行为时表现出的失衡。 偏差可能是由训练模型所用的数据或算法导致的。例如,如果一个 ML 模型主要使用中年个体相关数据进行训练,那么在涉及年轻人和老年人的预测时,其准确性可能会降低。机器学习领域提供了一个机会,可以通过在您的数据和模型中检测并衡量它们来消除偏差。您还可以查看模型输入的重要程度,以解释模型做出相关预测的原因。

Amazon SageMaker Clarify 会在数据准备期间、模型训练完成后和部署的模型中,通过检查您指定的属性来检测可能存在的偏差。例如,您可以检查初始数据集或训练后的模型中是否存在与年龄相关的偏差,并接收详细报告,其中量化了可能存在的、不同类型的偏差。SageMaker Clarify 还包含功能重要性图形,可帮助您解释模型做出相关预测的原因,并生成用于支持内部演示或识别模型问题的报告,以便您采取措施纠正相应问题。

检测数据和模型中的偏差

识别数据中的不平衡

SageMaker Clarify 与 Amazon SageMaker Data Wrangler 集成,可用于更轻松地识别数据准备期间的偏差。您可以指定相关的属性,如性别或年龄,SageMaker Clarify 则会运行一组算法以检测这些属性中是否存在偏差。算法运行后,SageMaker Clarify 将提供一份可视化报告,其中描述了可能存在的偏差的来源和测量方法,以便您确定纠正偏差的步骤。例如,在一份仅包含一个年龄组的商业贷款与其他年龄组相比较情况的几个示例的金融数据集中,SageMaker 将会标记该不平衡,以便您可以避免不利于该年龄组的模型。

检查您的已训练模型有无偏差

您还可以检查训练模型有无偏差,例如对一组人产生负面结果的频率高于另一组人的预测。SageMaker Clarify 与 SageMaker Experiments 集成,因此,当模型训练完成后,您可以识别您想要检查偏差的属性,例如年龄。SageMaker 将运行一组算法来检查训练的模型,并为您提供可视化报告,其中识别了每种属性的不同偏差类型,例如年龄大的群体是否比年轻的群体获得更多的积极预测。

监控您的模型偏差

虽然您的初始数据或模型可能没有发生偏差,但世界的变化可能会将偏差引入已经过训练的模型。例如,如果某些群体没有在原始培训数据中出现或准确表示,则购房者人口统计数据的重大变化可能会导致住房贷款申请模型出现偏差。SageMaker Clarify 与 SageMaker Model Monitor 集成,使您可以配置 Amazon CloudWatch 之类的提醒系统来在模型超出某些偏差指标阈值时通知您。 

解释模型行为

了解您的模型

经过训练的模型在生成预测时,可能会比其他模型更强烈地考虑某些模型输入。例如,贷款申请模型可能会将信贷历史看得比其他因素重。SageMaker Clarify 与 SageMaker Experiments 集成提供一个图表,以详细说明在模型训练之后,哪些特性对您的模型的总体预测过程贡献最大。这些详细信息可能有助于合规性要求,或者可以帮助确定某个特定模型输入对整个模型行为的影响是否比预期的更大。

监控您的模型行为中的变化

真实世界数据的变化可能会使您的模型给模型输入赋予不同的权重,从而随着时间的推移改变其行为。例如,房价下跌可能会导致模型在进行贷款预测时不那么看重收入。Amazon SageMaker Clarify 与 SageMaker Model Monitor 集成,以在模型输入改变从而导致模型行为变化时提醒您。

解释个体模型预测

客户和内部利益相关者都希望能够透彻了解模型进行预测的方式。SageMaker Clarify 与 SageMaker Experiments 集成,以向您显示每个模型输入对于特定预测的重要性。结果可以提供给面向客户的员工,以便他们在根据模型预测做出决策时了解模型的行为。

使用案例

法规合规性

《平等信贷机会法》(ECOA) 或《住房公平法》等法规可能要求公司能够解释金融决策并针对模型风险管理采取步骤。Amazon SageMaker Clarify 可以帮助标记初始数据或模型在训练后存在的任何潜在偏差,并且还可以帮助解释哪些模型功能对 ML 模型的预测贡献最大。

内部报告和合规性

数据科学团队经常需要向内部利益相关者(如内部审计人员或执行人员)证明或解释 ML 模型。Amazon SageMaker Clarify 可以在需要时为数据科学团队提供功能重要性图形,并可以帮助量化 ML 模型或用于训练该模型的数据中的潜在偏差,以便提供支持内部要求所需的额外信息。

客户服务

面向客户的员工,如财务顾问或贷款人员,可能会在工作过程中审查 ML 模型做出的预测。通过与数据科学团队合作,这些员工可以通过 API 直接从 Amazon SageMaker Clarify 获得可视化报告,其中详细说明了哪些功能对给定预测最重要,以便在做出可能影响客户的决策之前对预测进行审查。

案例研究

Varo Bank 是总部位于美国的数字化银行,该银行使用 AI/ML 帮助进行快速基于风险的决策,以向客户提供其创新产品和服务。

“Varo 对 ML 模型的可解释性和透明度投入很大,我们很高兴地看到 Amazon Sagemaker Clarify 的结果在推动这些努力。”

Sachin Shetty,Varo Money 的数据科学负责人

由 AWS 提供支持的德甲赛况在足球比赛期间为全世界的德甲球迷提供了更吸引人的球迷体验。使用 Amazon SageMaker Clarify,德甲现在可以以交互式方式解释是哪些关键的基本组件决定了导致 ML 模型预测特定的 xGoals 值的因素。了解各自的功能属性和解释结果有助于模型调试和提高 ML 算法的可信度,从而得到更高质量的预测。

“Amazon SageMaker Clarify 与德甲赛况数字平台的其余部分无缝集成,是在 Amazon SageMaker 上标准化 ML 工作流的长期策略的关键部分。通过使用 AWS 的创新技术(例如机器学习)来提供更深入的见解,让球迷更好地理解球场上的瞬间决定,德甲赛况可以让观众更深入地了解每场比赛中的关键决定。”

德国足球职业联盟数字创新执行副总裁 Andreas Heyden

“Zopa 是一家英国数字银行和个人对个人借贷平台。在我们的机器学习应用程序(如欺诈检测应用程序)中,理解每个因素对模型决策的影响对我们来说很重要。了解模型的推理可以给予我们的内部和外部利益相关者信息。还可以帮助我们的运营团队更快地作出响应并为客户提供最好的服务。使用 Amazon SageMaker Clarify,我们现在可以更快、更无缝地生成模型解释。”

Jiahang Zhong,Zopa 的数据科学负责人

开始使用 Amazon SageMaker Clarify