Amazon Bedrock RAG 和模型评估现在支持自定义指标

发布于: 2025年4月17日

借助 Amazon Bedrock 评估,您可以评估基础模型和检索增强生成(RAG)系统,无论这些系统是托管在 Amazon Bedrock 上,还是部署在多云和本地环境中。Bedrock 评估提供人工评估、程序化评估(例如 BertScore、F1 和其他精准匹配指标),以及用于模型和 RAG 评估的 LLM-as-a-judge。对于使用 LLM-as-a-judge 的模型和 RAG 评估,您可以从正确性、完整性和忠诚度(幻觉检测)等大量的内置指标中进行选择,也可以选择负责任的人工智能指标,例如拒绝回答、答案危害性和陈规定型观念。但是,有时客户想以不同的方式定义这些指标,或者制定与其需求相关的新指标。例如,客户可能会定义一个指标来评估应用程序响应是否符合其特定品牌语言风格,或者他们想根据自定义的类别评估准则对响应进行分类。

现在,Amazon Bedrock 评估使客户能够为由 LLM-as-a-Judge 提供支持的模型和 RAG 评估,创建和重复使用自定义指标。客户可以编写自己的评判提示,定义自己的类别或数值评级标准,并在运行时使用内置变量将数据集或 GenAI 响应中的数据注入评判提示,从而完全自定义评估中的数据流。客户可以从提供的快速入门模板中获得灵感,创建新的评判提示模板/评估准则,也可以从头开始制作自己的模板。

要开始使用,请访问 Amazon Bedrock 控制台或使用 Bedrock API。有关更多信息,请参阅用户指南