亚马逊AWS官方博客
斯曼森携手亚马逊云科技,使用 Amazon Nova 打造中文法律大模型
![]() |
关于斯曼森
斯曼森是一家专注于人工智能技术及应用研发的科技创新企业,致力于通过先进的技术手段提升企业运营质量和效率。随着近年来 AIGC 相关技术的发展和成熟,各行各业对智能化解决方案,尤其是 AI 相关的新一代智能方案需求的不断增加,斯曼森意识到生成式 AI 在整体智能化方案中的重要地位,构建从底层大语言模型到上层 AI 应用的全栈技术能力是提升其竞争力的重要一步。为此,斯曼森培养了技术过硬的研发团队,拥有模型训练、微调以及 AI Agent、AI 工作流和应用的开发、部署能力。在过去的一年中,斯曼森自行研发了法律领域的“鳀鲸”法律模型以及与其配套的法律服务平台,并为多家工业、教育行业的客户开发、部署了定制化 AI Agent 应用方案。
场景与挑战
斯曼森的法律咨询场景主要围绕用户输入的案情概述展开,具体流程如下:
![]() |
- 用户输入案情概述:用户通过系统录入一段关于案件的文字描述,可能包含案件背景、当事人信息以及相关事件。
- 模型分析与归类:模型对输入文本进行处理,分析案情内容并将其归类到特定的法律类别,同时识别出适用的案由。
- 关键事实与证据识别:模型提取案件中的核心事实和相关证据,为后续分析提供基础。
- 缺失信息分析:模型进一步分析案件材料中可能缺失的重要事实和证据信息。
- 信息挖掘:最终,模型以对话的形式对当事人用户未提及的案情缺失信息进行挖掘和记录,帮助法律从业人员快速理解案件关键点并计划后续工作。
在这一场景中,斯曼森选择微调(Fine-tuning)而非检索增强生成(RAG)主要在于微调能够针对法律咨询任务进行深度优化,使模型更擅长处理法律术语、案由分类和事实提取,同时法律条款和案例更新频率低,微调后的模型可以长期适应这一静态环境,无需频繁更新知识库。这样在特定领域内训练后更准确地理解复杂案件背景,有效减少生成虚假或不准确信息的风险。
在整个流程中,数据是实现成功微调的关键因素。法律行业存在大量的案例数据。通过不断更新和完善现有案例库,斯曼森能够确保模型始终保持最新状态,从而提高法律咨询服务的准确性和效率。
但如何把各种案例数据转变为可微调的数据集,这个事一个非常重要的调整,数据处理过程占用了斯曼森算法团队大量的时间,而微调这样一个法律大模型需要大量的数据。
解决方案
为了满足斯曼森在法律咨询场景中的需求,采用亚马逊云科技的 Fine-tuning Dataflow 解决方案,基于数据流(Dataflow)构建整个微调流水线,以提升大型语言模型(LLM)在法律领域的表现。
![]() |
流程如下:
- 数据获取:首先,通过多种渠道收集法律相关的数据。
- 数据清洗:对收集到的数据进行清洗,移除个人识别信息(PII)、纠正拼写和语法错误、去除无关内容,以提高数据质量。
- 数据质量控制:通过随机抽样检查、统计分析等方法,确保数据集的质量符合训练要求。
- 数据格式化和标准化:将清洗后的数据转换为统一格式,以便于后续的模型训练。不同模型可能有特定的格式要求。
- 数据扩增:利用同义词替换、回译等技术对数据进行扩增,以增加样本数量和多样性,从而提升模型的泛化能力。
这个过程充分发挥了 Amazon Nova 这款大语言模型成本合理、使用便利的优势,使用 Nova Pro 在结合亚马逊云科技的微调数据流(Fine-tuning Dataflow)解决方案,进行扩展和优化。以下是具体的实现细节:
我们需要构建这样一组的问题,通过相关的 prompt 生成整个数据:
通过这样的方式,基于各类案例,生成了超过 6000 条数据,在完成数据后,将数据自动存储到 S3,并用 Amazon SageMaker 平台对基座模型 Qwen1.5 7b 进行 Lora 微调。
![]() |
最终将模型部署于亚马逊云科技宁夏区域,确保其能够高效地服务于用户,并根据实际使用情况进行动态调整和优化,以及后续的微调。
效果提升
通过该模型可以快速提供案件咨询,实现在对当事人案情充分了解的前提下给出专业的建议。
![]() |
在 10,000 测试集数据的基础上,我们将“鳀鲸”模型与其他法律模型进行了全面对比评估:
模型基础评估
评估指标 | 描述 | 某法律模型 | “鳀鲸”模型 | 提升 |
案情识别准确率 | 模型对案件分类和关键事实识别的准确性 | 90% | 99% | 9% |
问题的相关性以及完整性 | 针对案件生成关键问题列表的完整性和相关性 | 70% | 92% | 22% |
专业评估
为了进一步验证模型的实际应用效果,我们邀请法律专家进行了人工评估:
评估指标 | 描述 | 某法律模型 | “鳀鲸”模型 | 提升 |
专业人员满意度 | 法律专业人员认为模型提供的信息准确且给出有意义的建议 | 60% | 90% | 30% |
综合结果
案情识别能力:“鳀鲸”模型在案情识别准确率方面达到了 99%,比对照组提升 9 个百分点,这一结果表明模型能够准确理解和分析复杂的法律案件。
问题生成质量:在问题的相关性和完整性方面提升显著,“鳀鲸”模型达到 92% 的高水平,相比对照组提升了 22 个百分点,显示出模型在法律咨询场景中的专业性。
专业认可度:法律专家的满意度评分从 60% 提升至 90%,增长了 30 个百分点,显著提升验证了“鳀鲸”模型在实际应用中的专业价值和实用性。
综合评估结果显示,经过微调的“鳀鲸”模型在各项关键指标上都取得了显著提升,特别是在专业性和准确性方面的表现尤为突出。这些改进直接提升了法律咨询服务的质量和效率。
总结
通过与亚马逊云科技的紧密合作,斯曼森成功构建了一个专门针对法律行业的大型语言模型。该模型不仅能够高效处理用户输入的案情概述,还能分析案件、识别关键事实和证据,并主动挖掘当事人未提及的案情缺失信息,帮助法律从业人员快速理解案件要点。在整个过程中,Amazon Nova 高效的模型能力和 SageMaker 便捷的微调流程为模型的成功实施提供了有力支持。通过持续的数据更新和完善,斯曼森将不断优化、更新模型,从而提高 AI 法律咨询服务的可用性,准确性和效率。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。