亚马逊AWS官方博客

借助开源大模型微调打造行业定制化专业翻译

引言

在全球化的商业环境中,高质量的专业翻译对于企业出海和行业交流至关重要。然而,专业领域的翻译往往面临着术语精确性、行业特定风格表达和文化适应性等多重挑战。

借助大语言模型(LLM)的 zero-shot 能力和提示词工程(Prompt Engineering: PE),LLM 在通用翻译任务中展现出了卓越的能力。但在处理专业领域的翻译时,仅仅使用未经微调的 LLM 可能在专业术语的翻译上出现错误,或者无法准确把握行业特有的语言风格。

亚马逊云科技人工智能应用实验室(AI Field Lab: AIFL)与多个行业领先的客户合作,共同探索如何利用亚马逊云科技的云计算能力和先进的机器学习服务来解决复杂的翻译挑战。本文将分享我们在这些共创项目中的经验和洞察,探讨如何利用开源大语言模型的微调技术来解决这些挑战。通过针对性的微调训练,我们可以显著提升模型在特定行业翻译任务中的表现。

行业翻译的特殊要求

专业翻译不同于日常对话的翻译,它有着更为严格和特殊的要求:

  • 专业术语的准确性:这些术语往往没有简单的一对一对应关系,需要深入理解行业知识才能准确翻译。
  • 行业特定的语言风格:例如,法律文件强调精确和无歧义,而市场营销文案则需要富有吸引力和说服力。
  • 翻译的“信达雅”:优秀的专业翻译应当遵循“信达雅”三原则。既要准确传达原文的含义(信),又要符合目标语言的表达习惯(达),最后还要优美得体(雅)。
行业 中文原文 参考译文 说明
旅游 不支持使用 KTN Known Traveler Numbers cannot be used 需要理解旅游行业特定概念
风能 风机天窗 wind turbine nacelle roof hatch 技术术语,需要准确对应
法律 无过错责任 strict liability 法律特定用语,直译可能造成误解

表格 1:行业翻译的特殊要求示例

开源大语言模型微调的优势

针对上述行业翻译的特殊要求,开源大语言模型的微调提供了一个有效的解决思路,它具有以下优势:

  • 可定制性强: 微调可以让模型学习特定行业的术语、风格和表达方式,更好地适应特定领域的翻译需求。
  • 灵活的小语种支持:相比闭源的商业模型,开源模型允许使用小语种的数据进行微调,大大提升了对小语种翻译的支持能力。
  • 潜在的成本效益:对于某些企业而言,微调开源模型可能比长期订阅商业翻译服务更具成本效益,也能发挥自身行业积累数据的优势,建立自身翻译系统的护城河。

微调流程介绍

微调开源大语言模型用于专业翻译,需要考虑以下几个关键步骤:

  • 数据准备:构建高质量的行业专业语料库是微调成功的关键,包括收集行业内的双语平行语料,以及专业术语词典等。
  • 模型选择:选择适合的开源大语言模型,这些模型应具有良好的基础翻译和对目标语言的支持能力。
  • 微调技术:采用全量微调或者 PEFT、 LoRA 等技术,可以在有限的计算资源下高效地进行模型微调。
  • 评估方法:使用 BLEU、ROUGE、COMET 等常用翻译评估指标,结合人工评估,全面衡量模型的翻译质量。

    图 1:微调流程示例

  • 模型迭代:根据评估结果或新增数据,持续优化迭代模型。

案例研究

接下来,本文以两个来自不同行业客户的实际翻译场景为例,介绍如何利用开源大模型微调打造行业定制化专业翻译。

案例研究 1:旅游行业多语种翻译模型

背景

一家领先的在线旅游平台需要将大量的酒店描述、旅游攻略和服务条款等内容从中文翻译成英文,英文翻译成日语、韩语、西班牙语等多种语言。传统的人工翻译方法既耗时又昂贵,难以满足快速增长的内容需求。

挑战

  • 多语种翻译:需要同时处理多个语言对的翻译,包括一些相对小众的语种。
  • 行业专业性:旅游行业有其特定的术语和表达方式。例如:含早双床房,可加床,含双早需要翻译成 Twin Room with Breakfast, Extra Bed Available, Breakfast for Two Included。
  • 翻译风格:需要保持原文的营销语气和文化内涵,而不是简单直译。例如:坐拥无敌海景,尽享私密空间需要翻译成 Commanding Breathtaking Ocean Views with Ultimate Privacy。

解决方案

依托于 Amazon SageMaker 机器学习平台,我们采用了基于开源大语言模型微调的方法来解决这个问题。

  • 数据准备: 利用客户提供的约 8 万条多语种翻译数据进行模型训练,涵盖酒店、文旅、航空等多个领域。
  • 模型选择与微调方式:
    1. 选择 Qwen1.5-7B 和 Baichuan2-7B 作为基础模型进行实验
    2. 对 Qwen1.5-7B 进行 LoRA 微调
    3. 对 Baichuan2-7B 进行全量微调
  • 多语种策略: 针对不同语言对分别进行微调,以优化小语种 (如泰语、韩语) 的翻译效果。
  • 评估指标: 使用 ROUGE、BLEU 和 COMET 等多种评估指标来全面衡量翻译质量。

结果

  • Qwen1.5-7B(LoRA 微调)
    • ROUGE 值平均提升约 11 个百分点(从 0.64 提升到 0.75)
    • BLEU 值平均提升约 13 个百分点(从 18.5 提升到 32)
    • COMET 值平均提升约 6 个百分点(从 0.78 提升到 0.84)
  • Baichuan2-7B(全量微调)
    • ROUGE 值平均提升约 26 个百分点(从 0.56 提升到 0.82)
    • BLEU 值平均提升约 30 个百分点(从 16.55 提升到 47.2)
    • COMET 值平均提升约 20 个百分点(从 0.68 提升到 0.88)
  • 语种效果: 中译英指标效果最好,小语种(如泰语、韩语)的效果也有显著提升。
  • 行业相关性:微调后的模型能够更好地理解和翻译旅游行业的专业术语和表达方式。

案例研究 2:风能行业专业翻译模型

背景

一家全球领先的风力发电机系统设计与制造的能源公司面临着技术文档和设备说明的精准翻译需求。他们需要将大量专业性极强的中文文档翻译成英文,以满足国际市场的需求。传统的翻译方法往往难以准确把握专业术语和行业特定表达。

挑战

  • 专业术语:风能行业有大量特定的技术术语和缩写需要精确翻译。例如,DFIG 需要翻译成双馈异步风力发电机。
  • 符号和单位:需要正确处理各种技术符号和单位的翻译。例如,功率、风速、温度等的翻译。
  • 简短输入:某些技术参数或指令可能非常简短,但仍需要准确翻译。例如, 测风塔检修需要翻译成 Met Mast Maintenance。
  • 一致性: 需要保持术语翻译的一致性,避免同一概念出现多种不同翻译。例如,叶片始终译为 blade,不使用 vane/wing。

解决方案

依托于 Amazon SageMaker 机器学习平台,我们采用了基于开源大语言模型微调的方法来解决这个问题:

  • 数据准备:收集并整理了大量风能行业的双语平行语料,包括技术文档、设备说明书和行业术语表。
  • 模型选择与微调:
    • 选择 Baichuan2-7B 和 Qwen2-7B 作为基础模型。
    • 设计特定的 prompt 模板,进行指令微调以增强模型对行业特点的理解,适应特定的翻译需求。见 Prompt 示例:
      system_message = '''
      You are an expert linguist, specializing in translation from {source_lang} to {target_lang}.
      '''
      translation_prompt = '''This is an {source_lang} to {target_lang} translation in the field of wind power energy. Please provide the {target_lang} translation for this text. Keep the following points in mind:
      1. Do not provide any explanations or text apart from the translation.
      2. Do not translate numbers and units. For example, if the text contains {units_1}, {units_2}, {units_3}, or {units_4}, keep them as they are in the translation.
      3. There might be some fixed professional terms related to wind power energy. If provided, please refer to the following glossary for accurate translations:
      {glossary}
      The following is the {source_lang} needs to be translated:
      {source_lang}: {source_text}
      {target_lang}:'''
      
  • 专门处理:
    • 针对符号和简短输入的翻译,设计了特殊的训练样本。
    • 构建了专业术语词典,用于辅助翻译和后处理。
  • 翻译流程示例:

图 2:翻译流程示例

如图 2 所示,经过训练过的专业翻译大模型可以通过 Amazon SageMaker 部署成 Endpoint,直接整合进客户原有的翻译系统中。在使用过程中,用户输入的专业文本首先经过实体抽取,然后同时送入术语系统和专家翻译系统。术语系统确保专业词汇的准确匹配,而后经过 PE 工程,送到微调后的专业翻译大模型进行精准地翻译。专家翻译系统可以将新识别的行业术语添加到词库中,持续优化系统。

结果

  • 整体翻译质量:ROUGE 值提升 15-20 个百分点,BLEU 值提升 20-30个百分点。
  • 人工反馈符号翻译准确率、术语翻译一致性提升明显,大大减少了人工校对的工作量。

总结与展望

开源大语言模型微调为解决行业高质量专业翻译提供了一个强有力的工具,依托于亚马逊云科技的云计算能力和先进的机器学习服务,我们可以使用 Amazon SageMaker 进行模型训练和部署,用 Amazon S3 存储大量的训练数据,用 Amazon Lambda 构建高效的翻译服务 API。这种云原生的解决方案使得客户能够灵活地扩展其翻译能力,同时保持高性能和成本效益,不仅提高了翻译的准确性和专业性,还为小语种翻译提供了可行的解决方案。

我们期待与更多的客户和开发者探索这一方向,为不同行业和语种创建定制化的翻译模型,进一步推动专业翻译领域的发展。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

本篇作者

田冰

亚马逊云科技应用科学家,长期从事自然语言处理、计算机视觉等领域的研究和开发工作。支持亚马逊云科技人工智能应用实验室项目,在大语言模型、多模态大模型、传统 CV 等方向有丰富的算法及落地经验。

王鹤男

亚马逊云科技资深应用科学家,负责生成式 AI 实验室,在生成式 AI 领域有丰富的实践经验,对于大语言模型、文生图模型、多模态模型等都有研究和应用,熟悉计算机视觉、自然语言处理、传统机器学习模型等领域,领导了首汽约车语音降噪、LiveMe 直播场景反欺诈等项目,为企业客户提供云上的人工智能和机器学习赋能。曾任汉迪推荐算法工程师,神州优车集团人工智能实验室负责人等职位。