亚马逊AWS官方博客

《基于智能搜索和大模型打造企业下一代知识库》之《制造/金融/教育/医疗行业实战场景》

感谢大家阅读《基于智能搜索和大模型打造企业下一代知识库》系列博客,全系列分为 5 篇,将为大家系统性地介绍新技术例如大语言模型如何赋能传统知识库场景,助力行业客户降本增效。更新目录如下:

第一篇《典型实用场景及核心组件介绍》

第二篇《手把手快速部署指南》

第三篇《Langchain 集成及其在电商的应用》

第四篇《制造/金融/教育/医疗等行业实战场景》(本篇)

第五篇《与 Amazon Kendra 集成》

背景

在本系列的《基于智能搜索和大模型打造企业下一代知识库》博客中,前面 3 篇已为大家介绍了核心组件、快速部署指南以及 LangChain 集成及其在电商的应用场景,本篇将继续下沉到具体行业进行场景以及实施案例的介绍:

  • 通用场景:基于企业内部知识库例如 IT/HR 信息的问答
  • 制造行业:装备维保知识库问答和售后客服
  • 金融行业:智能客服和智能报告生成
  • 教育行业:面向学生和面向学校的智能问答机器人
  • 医疗行业:医疗论文论文信息检索

方案架构图如下:

通用场景:基于企业内部知识库例如 IT/HR 信息的问答

在该场景下,企业可利用 IT 手册,员工手册,销售手册等构建企业知识库。使用人员为所有的内部员工,帮助员工提升信息获取的效率,从而提升工作效率。

提问与员工手册相关的问题,搜索引擎会首先获得相关的预料,然后使用 LLM 对预料进行信息抽取,过滤和总结,然后直接给出问题答案。

1:查询年假时间

2:查询上下班时间

制造行业

行业场景

制造行业中相对来说是一个传统的行业,因为历史积累,拥有众多的原始文档,但是由于大部分企业处于数字化转型的初期,无法有效利用这些文档。因此,其主要诉求为建立一个企业级的知识库平台,利用散落各处的文档提升企业运行效率。例如随着制造业的发展,企业对装备的维护和保养变得更加重视。装备维保知识库问答系统可以提供实时的维护指导,帮助操作员和维修人员解决各种故障和技术问题。售后客服对于提供优质的客户支持至关重要。装备的故障和技术问题可能会对客户的生产线造成重大影响,因此快速响应和解决问题是必要的。

客户选择此方案出于三个考虑:

1. 制造行业中,许多文档描述都是比较专业的知识,所有的描述都需要严谨,因此大语言模型的幻觉问题会导致内容输出不可信,反而出现更多不可控的风险;

2. 所有的回答必须精确到具体出处,避免大语言模型生成内容出现偏差;

3. 存在大量敏感数据,包括维保记录,机械设计图纸等,使用第三方 API 调用的大语言模型有可能存在数据泄漏,造成违规和安全隐患。

典型的使用场景为装备维保知识库问答和售后客服。

行业场景实践

装备维保知识库问答和售后客服

在该场景下,企业可利用历史维保记录,例如故障现象,故障原因,维修手册,用户手册等构建企业知识库。使用人员为一线维保工程师或者售后客服,结合检索和大语言模型,可以直接针对用户的故障现象,给出具体的原因分析。

1:装备维保场景-提问某零件生锈的原因(中文场景)

例 2:产品售后场景-提问某指示灯状态意义(英文场景)

数据来源:Midea Dishwasher 产品手册

金融行业

行业场景

金融行业分为银行、保险、资本市场以及支付多个子垂直行业,基于智能搜索和大模型的知识库,银行可以快速准确地回答客户的各类问题,提供个性化的金融产品推荐和投资建议;保险机构可以赋能用户快速找到适合自己需求的保险产品,并了解保险条款和理赔流程;资本市场成员可以借助其帮助投资者快速获取和理解市场动态、公司财务数据和分析报告等信息;支付机构则建立智能客服系统,帮助用户快速解决支付相关的问题。

客户选择此方案出于三个考虑:

1. 金融行业中所有的描述都需要严谨,数据需要精确,因此大语言模型的幻觉问题会导致内容输出不可信,严重则损坏企业形象以及客户流失;

2. 金融机构(如银行、保险)会提供相关的咨询服务,所涉及到的回复必须精确到具体出处,尤其法律法规相关内容需要和法规文件完全一致;

3. 金融数据存在大量敏感数据,包括交易、企业营收、内部资产以及个人信息,使用公开的大语言模型有可能在不经意间泄漏相关数据,造成违规和安全隐患。

典型的使用场景为智能客服与智能报告生成。

行业场景实践

智能客服

智能客服在金融行业中具有广泛的应用和场景,包括:

  • 产品和服务咨询:帮助客户查询和了解金融机构提供的各类产品和服务。通过自然语言处理和机器学习技术,智能客服可以回答关于金融产品特性、利率、费用等方面的问题,为客户提供个性化的产品咨询。
  • 交易指导和操作支持:智能客服可以指导客户进行各类金融交易操作,如转账、存款、理财产品购买等。客户可以通过与智能客服进行交互,获取操作步骤和操作指导,提高交易的便捷性和准确性。
  • 投诉和问题解决:智能客服可以处理客户的投诉和问题,并提供相应的解决方案。通过对客户问题的分析和分类,智能客服可以快速回答常见问题,同时也可以转接给人工客服处理更复杂的问题,提高问题解决的效率和客户满意度。

1:金融产品的咨询

通过提问(如下例)关于金融产品营收数据的分析,搜索引擎会搜索获得相关语料,并作为大语言模型的输入,进行汇总和总结。

2:金融专业知识的咨询

对于某些金融知识(如 GDR,存托凭证等)存在专业性强、不易理解的特点,传统客服无法快速理解、整理并得出相关的结论来回应该类型的客户咨询,造成用户体验差。同时对于专业知识的回应,需要准确且严谨的材料中获得,因此参考资料的出处也是本场景重要的指标。使用智能搜索和大模型方案可以有效提高内容总结的效果,同时列举出清晰的数据出处,精确到文档的句和段。

智能报告生成

金融行业中尤其是资本市场,无论是券商还是二级市场机构分析员,均需要对大量的数据和报告进行阅读和分析,同时需要对外输出各类型的报告,如行研、个股分析、市场分析和展望、投资建议分析等。他们会遇到以下痛点:

  • 时间压力:分析员通常需要在短时间内完成大量的报告撰写工作,以满足客户和市场对即时信息的需求。这给他们带来了时间上的压力,可能导致报告的质量和深度受到影响。
  • 数据整理和处理:撰写报告需要分析员从各种来源收集、整理和处理大量的市场数据、财务数据和新闻资讯等信息。手动处理和整理这些数据可能耗费大量时间和精力,并且容易出现错误。
  • 分析和解释复杂数据:分析员需要深入理解和解释复杂的金融数据、财务指标和市场趋势。这需要投入大量的研究和分析工作,以便提供准确、全面的分析和评估。
  • 信息获取和更新:分析员需要不断跟踪和获取最新的市场信息、行业动态和公司公告等。信息的获取和更新可能比较困难和耗时,尤其是当信息来源庞杂且分散时。
  • 语言表达和报告风格:撰写高质量的报告需要良好的语言表达能力和清晰的报告风格。然而,分析员可能面临语言表达的挑战,以及如何将复杂的金融概念和数据以简洁明了的方式传达给读者。

通过使用智能搜索和大模型方案,可以在资讯整理理解以及基础报告生成两个方面减轻上述问题带来的成本。

以下例子以大宗商品中的原油为例子,需要写一篇“关于原油上涨带来的风险“的报告:

通过提交相关的任务指引,包括(但不仅限于):1)任务描述; 2)文章规定的格式、标题和段落;3)文章规定的分段内容和主旨。智能搜索引擎会先进行从已经加载的数据中获得相关内容,并将内容传递到大语言模型,并要求大语言模型按照指引进行内容生成和输出。输出的报告可以作为基础内容提供给报告撰写和分析团队进行二次加工,从而提高生成效率。

【数据来源:1)金融相关财务报告;2)金融专业知识样例公开数据报告生成参考数据(大宗商品)

教育行业

行业场景

针对教育领域和智能教育产品的行业场景,可以从以下两个角度来说明,包括学校/老师角度、学生/家长角度。

学校/老师:本方案为基础来提供创新的在线教育工具,例如 AI Class Bot,助力学校和培训机构快速建立在线学习课程,帮助学校提高教学质量和效率,也能够节省教学资源和成本,减轻老师课程设计和辅导的负担,拓展教学内容和形式,增强教学创新和竞争力。

学生/家长:以本方案为基础来构建智能辅导系统,根据每个学生的水平和进度,生成适合他们的学习内容和方法,自适应地生成不同难度和类型的问题和解析,做到实现因材施教和自适应教育。同时还可以构建学校与家长之间的智能问答系统,可以帮助家长了解孩子的学习情况和需求,提供更多的学习支持和指导。

在教育行业中,客户选择此方案出于三个考虑:

1. 通过本方案可以快速、方便的将课程内容导入到知识库,利用大语言模型形成课程问答机器人。结合数字人技术还可以提供多轮对话的功能,让教育过程增加更多的趣味性。

2. 通过本方案利用 AI/ML 技术实现的用户正向反馈功能,可以帮助每个学生实时反馈搜索结果的权重,从而优化自己的知识库模型,以便实现自适应学习的目标。

3. 通过本方案可以把学校已知的资料以及散落在互联网的资料统一汇集到知识库,包括各种非结构化和半结构化数据,让家长更加快捷的查找所要的信息。

典型场景为面向学生的问答机器人和面向学校的问答机器人。

行业场景实践

1:学生场景的问答机器人(AI Class Bot)-英文单词学习的 AI 客服机器人

针对英文单词学习领域,将现有英文单词学习过程中的相关 FAQ 知识库导入现有方案中,该知识库文件中包含了众多在英文单词学习过程中的客户问题以及处理办法,通过本方案的知识库上传功能,将数据导入到知识库系统中。

本例中,我们希望客服机器人的答案一定是要基于知识库的范围内进行作答,如果不在知识库的范围,要回答“根据已知知识无法回答该问题”, 也就是说我们要避免大语言模型的幻觉问题。基于这个要求,普通的大预言模型在回答用户问题时可以有一定的创新性,也就是模型可以设置 temperature 值,以控制大语言模型的创新性。但是就算设置非常低的值,也不能保证大语言模型不自己创新的回答用户问题。

本方案针对该需求增加了置信度(evidence)的判断,对于大语言模型给出的答案与用户的问题、知识库的搜索结果都做了相似度计算,低于某个值就返回用户“无法回答该问题”。如下图所示:

有一些问题在知识库的范畴内,问答机器人就可以回答,如下图:

2:学校场景的问答机器人(AI School Bot)报考志愿问答机器人

面临中考、高考的考生家长相对比较焦虑,他们需要掌握更多的学校信息以便和自己孩子的学习情况做比较,选择更加适合自身的学校和未来的报考专业。以下是一个询问中学信息的问答场景,我们仅仅导入了几个国际学校的数据到知识库,希望问答机器人在知识库的范畴内回答问题,同时需要给出答案的置信度。如下图所示:

当问询某个国际学校的课程信息时,问答机器人将做如下回答:

医疗行业

行业场景

医疗行业有大量文档,其中既包括敏感资料如药物临床研究数据,患者健康数据,药研实验数据,也包括大量的公开数据集如基因数据,医学论文等。然而,作为一个历史悠久等行业,很多医院与企业仍然处于数字化转型的初期,存在数据量大,格式不统一,阅读理解难等问题。医疗健康领域数字化转型,降低医学数据的使用门槛一直是该领域的重要方向。具体来看:

  • 药物研发:通过整合药物设计的公开论文与内部文档为药企提供药物设计的知识库,通过关键词快速了解药理活性,作用位点,毒理,适用病理等信息,帮助企业提高研发迭代速度、提升研发效率、降低研发成本和提升项目整体成功率。
  • 就医知识库:整合 FAQ 咨询数据、药品说明书、患者病历、医学指南、医学书籍、医学论文、专业网站、专家录入数据等数据源,构建“疾病-症状-药品-诊断-人群”的私有知识库以及基于知识库的医药大健康智能专家虚拟助理。

典型场景是医疗论文信息检索。

行业场景实践

医疗论文信息检索

本次场景演示中,我们从亚马逊云科技的公开数据集中选取大家非常最常使用的 NCBI 数据集,并选择 2023 年度的一个子数据集作为样本数据,供测试。

为了方便测试,我们清洗一部分血液病相关的论文作为测试数据集,使用一些常见的血液病问题进行提问,平台将会从相应的数据集中进行召回,并根据 prompt 来生成相应的内容。考虑到医疗相关的论文都为英文,我们本次测试中,都使用的是擅长英文的开源大模型进行测试。

由于论文数据多样、还会有历史等不同信息等,所以在实际使用中,有可能需要通过不同的关键词、句来召回最适合您使用场景的结果。

而对于知识库没有的数据,平台将会召回“Not found answer” 或者“I don’t know”。这是确保在医疗、生命科学场景,对于不确认的信息,规避无效数据的回复。

由于论文数据的庞大,新旧数据的冲突等各种原因,在实际使用过程,我们建议用户您根据自己的实际情况、使用场景的需求,对于论文、内部科研数据、任何您需要使用的数据做一次提前的清理,比如,最保留最新数据等。这样保证数据在召回时候更符合您的需求。

【数据来源:公开数据集

总结

在日常使用大语言模型的过程中,两个比较突出的问题是不能被忽视的。它们分别是:

  • 幻觉问题(Hallucination)
  • 数据泄露(Data Leakage)

幻觉问题是自然语言处理领域中的基础问题之一,指文本生成模型的生成结果中含有与输入事实上冲突的内容,即结果可能出现虚构和捏造事实的情况。数据泄露问题是指用户在使用市面上大语言模型过程中,会主动或不经意间传入的可能涉及到商业机密、个人隐私、企业管理等敏感数据,造成数据泄露的问题。本方案的架构设计能够有效解决上述两个问题。

综上所述,基于智能搜索和大語言模型结合方案为不同行业场景构建 GAI 应用,达到:

  • 制造行业:通过构建智能企业知识库,有效整合制造业中的各类资料,并应用 AI 技术,将其快速转化为可信、准确的知识资源,提供给内部员工,从而极大地提升他们获取专业信息的效率。
  • 金融行业:精准的命中金融行业中多种过去只能依靠人工处理的场景,使用 AI/ML 的技术为金融客户降本增效,并助力客户主动挖掘更多业务场景,在保证数据安全可控的前提下加速 AI/ML 对业务创新的效率;
  • 教育行业:通过 GAI 技术,我们可以根据每个学生的水平和进度,生成适合他们的学习内容和方法,自适应地生成不同难度和类型的问题和解析,做到实现因材施教和自适应教育。
  • 医疗行业:通过生成式 AI 技术,我们可以让更多生命科学的工作者,可以从海量的知识信息中,更容易获取、提取所需要的临床、科研等信息,更好的为我们每个人的身体健康保驾护航。

本篇作者

熊俊峰

亚马逊云科技行业解决方案架构师,主要领域包括 AI/ML,制造业和医疗健康。曾就职于腾讯三年,负责国家医学影像云平台的产品架构设计和图像处理算法的开发工作。研究方向包括大语言模型和计算机视觉等,以第一作者发表 SCI 和国际会议论文 13 篇,以第一发明人申请发明专利 11 项。

陈伟明

亚马逊云科技金融行业解决方案架构师,拥有超过 10 年的外资银行团队管理、开发和交付经验。专注在金融行业(资本市场、保险、银行)解决方案的构建和实现。曾担任智能金融犯罪风险管理和交易反欺诈平台负责人, 包括机器学习、人工智能、DevOps、云计算和云原生架构设计与实现。

石锋

亚马逊云科技资深解决方案架构师,负责教育行业和交通行业的解决方案设计和落地。曾就职于阿里云六年,负责交通、政府、奥运、体育媒体等大型项目的技术团队,在 IBM 和 Oracle 工作过 10 年,在多个行业针对云计算、大数据、人工智能、物联网、元宇宙等领域有丰富的实践经验。

钱凯

解决方案架构师经理,负责亚马逊云科技的云计算方案的咨询与架构设计,对于云上运维服务、HPC 等方面有丰富经验。在加入亚马逊云科技之前曾在 HP、Citrix 服务多年,熟悉传统虚拟化、虚拟桌面、微软 Windows 等产品。

赵安蓓

AWS 解决方案架构师,负责基于 AWS 云平台的解决方案咨询和设计,机器学习 TFC 成员。在数据处理与建模领域有着丰富的实践经验,特别关注医疗领域的机器学习工程化与运用。