关闭
所有功能
Autopilot
Clarify
Data Wrangler
部署
Edge Manager
实验
特征存放区
HyperPod
机器学习治理
MLOps
笔记本
Ground Truth
JumpStart
管道
Studio Lab
训练
什么是 Amazon SageMaker Clarify?
SageMaker Clarify 的优势
评估基础模型
评估向导和报告
要启动评估,请选择模型、任务和评估类型 - 基于人工或自动报告。利用评估结果为您的使用案例选择最佳模型,并量化诸如提示工程、人类反馈强化学习(RLHF)、检索增强生成(RAG)和监督微调(SFT)等模型定制技术的影响。评估报告总结了多个维度的分数,便于快速比较和决策。更详细的报告提供了最高和最低评分模型输出的示例,使您可以专注于可进一步优化的方面。
自定义
快速开始使用精选数据集(例如 CrowS-Pairs、TriviaQA 和 WikiText)以及精选算法(例如 Bert-Score、Rouge 和 F1)。您可以自定义专门针对您的生成式人工智能应用程序的提示数据集和评分算法。自动评估还可以作为 GitHub 中的开源库提供,以便您可以在任何地方运行它。示例笔记本向您展示如何以编程方式对任何 FM(包括未托管在 AWS 上的模型)运行评估,以及如何将 FM 评估与 SageMaker MLOps 和治理工具(例如 SageMaker Pipelines、SageMaker Model Registration 和 SageMaker Model Cards)集成。
人工评估
一些评估标准是微妙的或主观的,需要通过人工判断进行评测。除了基于指标的自动化评估之外,您还可以要求人工(您自己的员工或 AWS 管理的评估团队)根据有用性、语气和对品牌声音的遵守等维度评估模型输出。人工评估员还可以检查与公司特定指南、术语和品牌声音的一致性。设置自定义说明来指导您的评估团队如何评估提示,例如通过排名或表示赞成/反对。
模型质量评估
使用自动和/或人工评估来评估您的 FM,以确定它是否为您的特定生成式人工智能任务提供高质量的响应。使用针对特定生成式人工智能任务(例如摘要、问答(Q&A)和分类)量身定制的特定评估算法(例如 Bert Score、Rouge 和 F1)来评估模型准确性。当提示对输入进行语义保留扰动(例如 ButterFingers、随机大写和空格添加删除)时,检查 FM 输出的语义稳健性。
模型责任评估
通过自动和/或人工评估,评估您的基础模型在编程时引入刻板印象以及种族/肤色、性别/性别认同、性取向、宗教、年龄、国籍、残疾、外貌和社会经济地位等类别的风险。您还可以评估毒舌内容的风险。这些评估可以应用于任何涉及内容生成的任务,包括开放式生成、摘要和问题解答。
模型预测
解释模型预测
SageMaker Clarify 与 SageMaker Experiments 集成,提供评分,以详细说明哪些特征对表格、自然语言处理(NLP)及计算机视觉模型的特定输入的模型预测贡献最大。对于表格数据集,SageMaker Clarify 还可以输出聚合特征重要性图表,提供对模型整体预测过程的见解。这些详细信息有助于确定特定模型输入对整体模型行为的影响是否比预期的影响更大。
监控模型的行为变化
实时数据的变化可能会暴露模型的新行为。例如,在某个地理区域数据上训练的信用风险预测模型应用于另一个区域的数据时,可能会改变该模型对各种特征的重要性。SageMaker Clarify 与 SageMaker Model Monitor 集成,以在输入特征重要性改变并因此导致模型行为变化时,通过 CloudWatch 等警报系统提醒您。