发布于: Sep 21, 2021

Amazon Comprehend 为 Comprehend Custom 推出了一套功能,让开发人员能够创建新的模型版本、在特定的测试集上持续测试以及将新模型迁移到现有终端节点,从而实现模型的持续改进。通过 AutoML,自定义实体识别使您能够自定义 Amazon Comprehend,以识别您的域所特有的实体;自定义分类使您能够使用特定于您业务的标签来轻松构建自定义文本分类模型。自定义模型随后可用于在实时和批处理模式下对文本文档进行推理。创建自定义模型很简单 - 无需具备机器学习经验。以下是这些功能的详细说明:

改进的模型管理 - 对于大多数自然语言处理 (NLP) 项目,随着新数据的收集或者因为​​训练数据集与推理处理的文档之间存在偏差,模型会随着时间的推移而不断被重新训练。通过模型版本控制和实时端点更新,您可以不断地重新训练新的模型版本,比较各个版本的准确率指标,并且您只需“一键点击”即可以性能最佳的模型更新实时端点。

  • 模型版本控制让您可以重新训练现有模型的较新版本,从而更轻松地迭代和跟踪准确率的变化。每个新版本都可以通过唯一的版本 ID 来标识。
  • 活动端点更新让您能够以新的模型更新活动的同步端点。这让您可以在不停机的情况下将新的模型版本部署到生产环境中。

改善模型训练/评估的控制 - 数据准备和模型评估通常是任何 NLP 项目中最乏味的部分。如果没有明确指出训练和测试数据的划分,模型评估和故障排除往往会令人困惑。您现在可以在模型训练期间提供单独的训练和测试数据集。我们还推出了一种新的训练模式,该模式有助于提高对跨多个段落的长文档进行推理的准确率。

  • 客户提供的测试数据集让您可以在模型训练期间提供可选的测试数据集。此前,您必须针对测试集手动运行推理任务来评估模型。随着更多的数据得以收集和新的模型版本得以训练,使用相同的测试数据集来评估模型的性能,可以为不同的模型版本提供一个公平的比较。
  • 新的训练模式提高了实体识别模型在识别包含多个段落的长文档方面的准确率。在使用 CSV 注释的模型训练过程中,为长文档选择 ONE_DOC_PER_FILE 输入格式,可以让模型学习更多的上下文嵌入,从而显著提高模型的准确率。

如需了解更多信息并开始使用,请访问 Amazon Comprehend 产品页面和我们的文档