Amazon SageMaker Clarify

评估模型并解释模型预测

什么是 Amazon SageMaker Clarify?

SageMaker Clarify 的优势

使用准确性、稳定性和毒性等指标自动评估生成式人工智能使用案例的 FM,以支持您负责任的人工智能计划。对于需要复杂的人工判断的标准或有细微差别的内容,您可以选择利用自己的员工队伍,也可以使用 AWS 提供的托管员工队伍来审查模型响应。
解释在模型开发和推理过程中,输入功能如何影响模型预测。在自定义期间,使用自动和人工评估来评估您的 FM。
在整个 FM 自定义和 MLOps 工作流程中生成简单易懂的指标、报告和示例。
根据 ISO 42001 等指南的规定,在数据准备、模型定制期间以及部署的模型中检测潜在偏差和其他风险。

评估基础模型

评估向导和报告

要启动评估,请选择模型、任务和评估类型 - 基于人工或自动报告。利用评估结果为您的使用案例选择最佳模型,并量化诸如提示工程、人类反馈强化学习(RLHF)、检索增强生成(RAG)和监督微调(SFT)等模型定制技术的影响。评估报告总结了多个维度的分数,便于快速比较和决策。更详细的报告提供了最高和最低评分模型输出的示例,使您可以专注于可进一步优化的方面。
评估向导和报告

自定义

快速开始使用精选数据集(例如 CrowS-Pairs、TriviaQA 和 WikiText)以及精选算法(例如 Bert-Score、Rouge 和 F1)。您可以自定义专门针对您的生成式人工智能应用程序的提示数据集和评分算法。自动评估还可以作为 GitHub 中的开源库提供,以便您可以在任何地方运行它。示例笔记本向您展示如何以编程方式对任何 FM(包括未托管在 AWS 上的模型)运行评估,以及如何将 FM 评估与 SageMaker MLOps 和治理工具(例如 SageMaker Pipelines、SageMaker Model Registration 和 SageMaker Model Cards)集成。
自定义

人工评估

一些评估标准是微妙的或主观的,需要通过人工判断进行评测。除了基于指标的自动化评估之外,您还可以要求人工(您自己的员工或 AWS 管理的评估团队)根据有用性、语气和对品牌声音的遵守等维度评估模型输出。人工评估员还可以检查与公司特定指南、术语和品牌声音的一致性。设置自定义说明来指导您的评估团队如何评估提示,例如通过排名或表示赞成/反对。
人工评估

模型质量评估

使用自动和/或人工评估来评估您的 FM,以确定它是否为您的特定生成式人工智能任务提供高质量的响应。使用针对特定生成式人工智能任务(例如摘要、问答(Q&A)和分类)量身定制的特定评估算法(例如 Bert Score、Rouge 和 F1)来评估模型准确性。当提示对输入进行语义保留扰动(例如 ButterFingers、随机大写和空格添加删除)时,检查 FM 输出的语义稳健性。
模型质量评估

模型责任评估

通过自动和/或人工评估,评估您的基础模型在编程时引入刻板印象以及种族/肤色、性别/性别认同、性取向、宗教、年龄、国籍、残疾、外貌和社会经济地位等类别的风险。您还可以评估毒舌内容的风险。这些评估可以应用于任何涉及内容生成的任务,包括开放式生成、摘要和问题解答。

模型责任评估

模型预测

解释模型预测

SageMaker Clarify 与 SageMaker Experiments 集成,提供评分,以详细说明哪些特征对表格、自然语言处理(NLP)及计算机视觉模型的特定输入的模型预测贡献最大。对于表格数据集,SageMaker Clarify 还可以输出聚合特征重要性图表,提供对模型整体预测过程的见解。这些详细信息有助于确定特定模型输入对整体模型行为的影响是否比预期的影响更大。
SageMaker Experiments 中训练模型的功能重要性图表的屏幕截图

监控模型的行为变化

实时数据的变化可能会暴露模型的新行为。例如,在某个地理区域数据上训练的信用风险预测模型应用于另一个区域的数据时,可能会改变该模型对各种特征的重要性。SageMaker Clarify 与 SageMaker Model Monitor 集成,以在输入特征重要性改变并因此导致模型行为变化时,通过 CloudWatch 等警报系统提醒您。
SageMaker Model Monitor 中的功能重要性监控屏幕截图