亚马逊AWS官方博客

基于大语言模型知识问答应用落地实践 – 使用 TruLens 做自动化 RAG 项目评估测试

我们 【基于大语言模型知识问答应用落地实践】 系列博客前 4 篇已经介绍了知识库构建和召回调优方面的实践经验,随着 RAG 项目的逐渐丰富和成熟,越来越多的工作会深入到各种细节的打磨,例如 Prompt 模板调优,更换更新的模型,各类阈值或者参数的调整等。 本篇将介绍如何用 TruLens 框架,一种简单的,系统化的方法来评估 LLM 应用的衡量性能和质量指标,做自动化 RAG 项目评估测试,以及跟踪每次迭代后指标的改善情况。

负责任人工智能的良好实践:促进采用负责任且值得信赖的人工智能系统

生成式人工智能的诞生使种种变革成为可能,我们的工作、生活和与世界互动的方式也可能由此受益。但是,这项技术如此强大,我们必须认识到随之而来的责任。 这段时间,从我与高管们的交谈中,我发现他们都意识到了,人们对可以开始使用人工智能这件事热情高涨,而对于生成式人工智能的出现则更是激动不已。但是高管们经常会问:“我怎样才能以安全负责的方式实施该技术,为我的客户提供出色体验?” 这是一个重要的问题,尤其是我们现在已经看到了生成式人工智能所带来的新挑战。