Amazon Bedrock 现在支持 RAG 评测(已正式推出)
Amazon Bedrock RAG 评测现已正式推出。您可以评测基于 Amazon Bedrock 知识库或自定义 RAG 系统构建的检索增强生成(RAG)应用程序。您可以评测检索或端到端生成。评测由 LLM-as-a-Judge 提供技术支持,并有多种判断模型可供选择。对于检索,您可以从上下文相关性和覆盖范围等指标中进行选择。对于端到端检索和生成,您可以从正确性、完整性和忠诚度(幻觉检测)等质量指标中进行选择,也可以选择负责任的人工智能指标,例如危害性、拒绝答案和陈规定型观念。您还可以在不同的评测作业之间进行比较,以使用不同的设置(例如分块策略或向量长度、重新排序器或不同的内容生成模型)来迭代知识库或自定义 RAG 应用程序。
*全新功能 – 更灵活的体验!*从今天起,除了 Bedrock 知识库外,Amazon Bedrock 的 RAG 评测还支持自定义 RAG 管道评测。现在,当客户评测自定义 RAG 管道时,可以将其输入–输出对和检索到的上下文直接纳入评测作业的输入数据集中,从而绕过对 Bedrock 知识库的调用(“自带推理响应”)。我们还在 Bedrock 知识库评测中新增了引用精确度和引用覆盖率指标。如果您在评测中使用 Bedrock 知识库,则可以直接集成 Amazon Bedrock 防护机制。
要了解更多信息,请访问 Amazon Bedrock 评测页面和文档。要开始使用,请登录 Amazon Bedrock 控制台或使用 Amazon Bedrock API。