Amazon Comprehend 是一项自然语言处理 (NLP) 服务,使用机器学习来发现文本中的洞察信息。Amazon Comprehend 提供关键词提取、情绪分析、实体识别、主题建模和语言检测 API,因此您可以轻松地将自然语言处理集成到您的应用程序中。您只需在应用程序中调用相应 Amazon Comprehend API 并提供源文档或文本的位置即可。这些 API 将以 JSON 格式输出实体、关键词、情绪和语言,以供您在应用程序中使用。
关键词提取
关键词提取 API 会返回关键词或谈话要点以及证明此为关键词的置信度。
-
示例:在本例中,客户正在对比数码单反相机和拍立得相机。API 提取关键短语并返回有关结果的置信度评分。
示例文本:我是一名发烧级摄影师,日常主要使用数码单反相机以及随身携带的拍立得相机。虽然数码单反相机具有无与伦比的强大功能和便利性,但拍立得相机也有一些神奇之处。也许您正在拍摄纪实片,或者您拍摄的每个镜头都是独一无二的实物(这在当今世界照片不胜枚举的 Instagram 和 Facebook 上显得与众不同)。我敢肯定地说,它们用起来很有趣,如果您在派对上拿出来其中一个,大家都会眼前一亮。
关键词 置信度 发烧级摄影师 0.99
数码单反相机 0.97 拍立得相机 0.99
日常使用 0.99
强大功能和便利性 0.94 纪实片 0.99 每个镜头 0.92 独一无二的实物 0.99
当今 0.91 世界 0.99
Instagram 和 Facebook 0.99
情绪分析
情绪分析 API 会返回文本的整体情绪(正面、负面、中性或混合)。
-
示例:在本例中,客户正在发布对一双鞋的反馈。该 API 可识别出该客户表达的情绪以及置信度。
示例文本:我订购的是 S 码,希望刚好合脚,但它却有点像是 M 码。质量非常好。实物的颜色比图片上的棕色浅,但相当接近。如果内衬是棉花或羊毛的话,那将会好上十倍。
情绪 分数 混合 0.89 正面 0.09 负面 0.01 中性 0.00
语法分析
借助 Amazon Comprehend Syntax API,客户能够使用分词断句和词性 (PoS) 分析文本,识别文本中的名词和形容词等单词边界和标签。
-
示例:在本示例中,我们将使用 Comprehend Syntax API 分析一个简短的文档。Syntax API 可对文本分词断句(确定单词边界)并使用名词 和动词等相关词性标记每一个单词。除了注明开始和结束偏移量之外(以便您知道单词在文本中的位置),我们还提供置信度得分。
示例文本:我喜欢我的速度快的、新的 Kindle Fire!
文本 标签 我 代词 喜欢 动词
我的 代词 速度快的 形容词 、 标点符号 新的 形容词 Kindle 专有名词 Fire
专有名词 ! 标点符号
实体识别
实体识别 API 会返回根据提供的文本自动分类的命名实体(“人物”、“地点”和“位置”等)。
-
示例:在本例中,我们正在查看一家公司的介绍。该 API 可识别出“组织”、“日期”和“位置”等实体,并返回置信度评分。
示例文本:Amazon.com, Inc. 位于华盛顿州西雅图,由 Jeff Bezos 创立于 1994 年 7 月 5 日,向客户销售书籍和搅拌机等各种商品。西雅图位于波特兰的北部和不列颠哥伦比亚省温哥华的南部。总部设在西雅图的其他知名公司有 Starbucks 和 Boeing。
实体 类别 置信度 Amazon.com, Inc.
组织 0.96 华盛顿州西雅图 地点 0.96 1994 年 7 月 5 日 日期 0.99 Jeff Bezos 人物 0.99 西雅图
地点 0.98 波特兰
地点 0.99 不列颠哥伦比亚省温哥华 地点 0.97 Starbucks
组织 0.91 Boeing
组织 0.99
Comprehend Medical
医学具名实体和关系提取 (NERe)
医学 NERe API 可返回药物、医学状况、检验、治疗和程序 (TTP)、解剖以及受保护的健康信息 (PHI) 等医学信息。它还会识别所提取的与药物和 TTP 有关的子类之间的关系。此外还有作为实体“特质”提供的上下文信息(否定,或诊断是否属于迹象或症状)。下表列举了含有相关子类别和实体特质的提取信息。
如果仅需提取 PHI,您可以使用受保护健康信息数据识别 (PHId) API。
-
示例:在本例中,我们正在查看入院单。该 API 识别了医学信息并返回了一个置信度评分。
示例文本:Mr. Smith is a 63-year-old gentleman with coronary artery disease and hypertension.当前用药:LIPITOR 20 mg,每日一次。
医学本体链接
医学本体链接 API 可以识别医学信息并将其链接到标准医学本体中的代码和概念。身体状况通过 InferICD10CM API 链接到 ICD-10-CM 代码(例如,“头痛”链接到“R51”代码),而药物链接到 RxNorm 代码(“对乙酰氨基酚/可待因”链接到“C2341132”代码)。医学本体链接 API 还可以将上下文信息检测为实体特征(例如,否定)。
自定义实体
自定义实体允许您自定义 Amazon Comprehend 来识别特定于您的域的条款。使用 AutoML,Comprehend 将从少量的私有示例索引学习(例如,保单编号列表和其中所用的文本),然后训练私有的自定义模型以便在任意其他文本块中识别这些条款。此时无需管理任何服务器,也没有要掌握的任何算法。
-
示例:在此示例中,保险公司希望分析文本文档,了解特定于其业务的实体和保单号码。
示例文本:您好,我是 Sam Ford,我在填写车祸索赔。我的保单代码是 456-YQT。
实体 类别 数量 置信度 456-YQT Policy_ID 1 0.95
语言检测
语言检测 API 可自动识别出 100 多种语言编写的文本,并返回主导语言以及证明其占据主导地位的置信度得分。
-
示例:在本例中,该 API 会解析文本,并能够识别文本中的主导语言为意大利语以及返回置信度得分。
示例文本:Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud.È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1 语言代码 语言 置信度 it 意大利语 1.0
自定义分类
自定义分类 API 让您可以使用业务特定标签轻松构建自定义文本分类模型,而无需学习 ML。例如,您的客户支持组织可以使用自定义分类,根据客户对问题的描述自动按问题类型对入站请求进行分类。创建自定义模型很简单。您可以为要使用的每个标签提供文本示例,然后,Comprehend 会训练这些标签以创建自定义模型。无需任何机器学习经验,您便可以不使用任何代码来构建自定义模型。您可以使用软件开发工具包将客户分类器集成到当前应用程序中。使用您的自定义模型,您可以轻松调整网站评论、对客户反馈进行分类,以及整理工作组文档。有关更多详细信息,请参阅本文档页面。
-
示例:假设您要整理对航空公司的客户支持反馈。您希望将每条反馈按账户问题、机票退款和飞行投诉进行分类整理。要训练该服务,您需要创建一个 CSV 文件,其中包含每个问题的示例文本,并使用适用的四个标签之一标记每个样本。该服务将代表您自动训练自定义模型。要使用您的模型分析第二天的所有调用,您需要将每个文本文件提交给该服务,并接收已标记的结果以及标签匹配的置信度。
文本 标签 置信度评分 第 0 行 账户问题 0.92 第 1 行 机票退款 1 第 2 行 飞行投诉 1 第 3 行 飞行投诉 0.91 Doc5.csv 机票退款 1
主题建模
主题建模 API 可从存储在 Amazon S3 的文档集合中识别出相关术语或主题。该 API 会识别集合中最常见的主题,并按组整理,然后将文档映射到相应主题。
-
示例:如果您的文档(Doc1.txt、Doc2.txt、Doc3.txt 和 Doc4.txt)存储在 Amazon S3 中,并且您向 Amazon Comprehend 指出了其位置,Comprehend 将分析这些文档并返回两个视图:
1.关键字分组,即主题。
每组关键字都与一个主题组相关联。权重是指在该关键字在相应组内所占的比例。权重最接近 1 的关键字最能代表主题组的上下文。主题组 关键字 权重 1 Amazon 0.87 1 西雅图 0.65 2 节假日 0.78 2 购物 0.67 每组关键字都与一个主题组相关联。权重是指在该关键字在相应组内所占的比例。权重最接近 1 的关键字最能代表主题组的上下文。2.按主题的文档分组。
文档名称 主题组 比例 Doc1.txt 1 0.87 Doc2.txt 1 0.65 Doc3.txt 2 0.78 Doc4.txt 2 0.67 每个文档都会映射到一个主题组,具体取决于该主题组的加权关键字在文档中所占的比例。
多语言支持
Amazon Comprehend 可以对英语、法语、德语、意大利语、葡萄牙语和西班牙语文本进行文本分析。因此,您可以构建能够检测多种语言文本的应用程序,使用 Amazon Translate 将文本转换为英语、法语、德语、意大利语、葡萄牙语和西班牙语,然后使用 Amazon Comprehend 来执行文本分析。