亚马逊AWS官方博客

重塑企业搜索 – Amazon Kendra 现已正式推出

2019 年底,我们发布了 Amazon Kendra 预览版,这是一款由机器学习技术提供支持的企业搜索服务,具有高度准确和方便易用的特点。现在,我很高兴宣布 Amazon Kendra 现已正式推出。

虽然信息技术在过去几十年取得了令人惊叹的成果,但是尚未解决我们每天面临的一个问题:轻松快速地找到我们所需的信息。无论我们是寻找最新版本的公司旅行政策,还是询问技术含量较高的问题,例如“环氧胶粘剂的抗拉强度是多少?”,我们似乎永远无法马上找到正确的答案。有时,我们根本找不到答案!

这些问题不仅困扰着用户,还会严重影响生产力。IDC 的一项研究表明,低效率搜索的成本是每名员工每年 5700 USD:对于一家拥有 1000 名员工的公司来说,每年会损失 570 万 USD,其中不包括低准确性搜索导致的责任和合规性风险。

此问题有以下几个原因。首先,大多数企业数据是非结构化的,因此很难准确定位所需的信息。其次,数据通常分布在各个组织孤岛,并存储在异构后端:网络共享、关系数据库、第三方应用程序等。最后,基于关键字的搜索系统需要计算出正确的关键字组合,并且通常会返回大量结果,而其中大多数与我们的查询无关。

我们注意到这些令人困扰的问题,决定帮助客户打造他们值得拥有的搜索功能。最终推出 Amazon Kendra

Amazon Kendra 简介
有了 Amazon Kendra,组织只需单击几下,即可索引不同后端(例如文件系统、应用程序、内部网和关系数据库)存储的结构化和非结构化数据。如您所愿,所有数据在传输时使用 HTTPS 进行加密,在静态时使用 AWS Key Management Service (KMS) 进行加密。

Amazon Kendra 经过优化,可以理解各个领域的复杂用语,例如 IT(如“如何设置 VPN?”)、医疗保健和生命科学(如“ALS 的遗传标志是什么?”)和其他许多领域。Kendra 具备多领域专业知识,因此可以找到更加准确的答案。此外,开发人员可以使用权威数据源或文档新鲜度等标准明确调整结果的相关性。

Kendra 搜索可以通过 AWS 控制台中提供的示例代码或 API,快速部署到任一应用程序(搜索页面、聊天应用程序、Chatbot 等)。客户可以在几分钟内启动和运行 Kendra 的更新语义搜索。

许多组织现在已经使用 Amazon Kendra。例如,Allen Institute 致力于解决一些较大的生物科学谜团,研究大脑、人类细胞和免疫系统领域的人类生物学奥秘。Oren Etzioni 博士是 Allen Institute AI 领域的首席执行官,他表示:“Amazon Kendra 等 AI 现在能做的最具影响力的一件事情是帮助科学家、学者和技术人员快速在科学文献的海洋中找到正确的信息,推动更快进行重要研究。Allen Institute AI 部门的 Semantic Scholar 团队有幸携手我们的合作伙伴应对新冠肺炎 (CORD-19),支持社区构建 AI 资源,以利用此类资源来应对这一关键性问题”。

Amazon Kendra 新增功能简介
根据在预览阶段收集的客户反馈,我们为 Amazon Kendra 添加了以下功能。

  • 企业版新增扩展选项,并且新推出开发人员版(请参见以下详细信息)。
  • 新增 3 个云连接器:OneDrive、Salesforce 和 ServiceNow(此外还有 S3RDS 和 SharePoint Online)。
  • 新增 8 个领域的专业知识:汽车、健康、人力资源、法律、媒体和娱乐、新闻、电信、旅游和休闲(此外还有化工、能源、金融、保险、IT 和制药)。
  • 索引速度加快,且准确性提高。

使用 Amazon Kendra 索引数据
出于演示目的,我下载了一小部分维基百科(大约 50000 个网页)。我将每个文件以 HTML 格式上传到 Amazon Simple Storage Service (S3) 存储桶。

转到 Kendra 控制台,我首先创建新索引,为其命名并提供描述。单击一下,即可使用 AWS Key Management Service (KMS) 进行加密。

大约 30 分钟之后,索引便可使用。我现在可以为索引添加数据源。

添加 S3 存储桶相当简单。首先,输入数据源的名称。

然后,定义 S3 存储桶的名称。此外,还需要指定 Kendra 所用 IAM 角色(可以选择现有角色,也可以创建新角色)的名称。

我可以选择安排定期同步,以便使用添加到数据源的新数据刷新索引。我现在选择午夜运行每日刷新。

在下一个屏幕上,审核所有参数并创建数据源。激活之后,单击“立即同步”以启动初始同步。

片刻之后,同步完成。现在转到测试窗口,开始在索引上运行查询。

使用 Amazon Kendra 查询数据
几天前,我在撰写博文时,听到了一首自己非常喜欢的爵士乐,由音乐家 Thad Jones 演奏。我对爵士乐演奏家一无所知,因此很好奇能否通过 Kendra 了解更多信息。

不出所料,此查询返回大量匹配的文档。但是,Kendra 推荐了一个答案,与我的查询高度匹配。该答案指向某个索引页面的一个特定段落。为更方便查看,相关内容突出显示,因此我可以立即明白,这是与我的查询匹配的正确答案。无需再进行查找! 同时,我为该答案点赞,这样 Amazon Kendra 就知道这确实是正确答案。

为详细了解 Thad Jones,我提出了第二个问题。

我再次得到推荐的答案。这次,Kendra 更进一步,返回文档中的确切答案,而不仅仅返回文档本身。我们由此可以看出 Kendra 如何理解上下文并提取关系,在此案例中为个人与出生城市之间的关联。

依旧出于好奇,我提出第三个问题。

我得到另一个推荐的答案,并且仍然非常准确。我要查找的信息位于第一个句子中:Thad Jones has played with Count Basie。正如您所看到的,以上段落甚至没有包含“play”一词。但是,Amazon Kendra 正确理解了我的问题。Thad Jones 是音乐家:如果我询问他与别人一起演奏的事情,系统很可能认为我是在查找其他音乐家,而不是找运动合作伙伴! Amazon Kendra 能够理解自然语言查询并提取深层领域知识,最终助力其提供如此准确的答案。

开始使用
Amazon Kendra 现已在美国东部(弗吉尼亚北部)美国西部(俄勒冈)欧洲(爱尔兰)正式推出。

有两种版本供您选择。

企业版每天允许您搜索多达 500000 个文档,运行多达 40000 个查询,费用为每小时 7 USD。您还需要为每个扫描的文档支付 0.000001 USD,同步时需每小时为每个连接器支付 0.35 USD。如果您需要更多索引或查询功能,现在可以独立进行扩展:额外 40000 个查询需要每小时 3.5 USD,额外 500000 个可搜索文档需要每小时 3.5 USD。

开发人员版与企业版具有相同的功能。但是,该版本每天只能运行 4000 个查询,只能跨 5 个数据源搜索 10000 个文档。不提供扩展选项。请注意,开发人员版在单个可用区上运行,因此不得用于生产目的。

试试 Amazon Kendra 吧! 我们希望您通过您常用的 AWS Support 联系方式或者 KendraAWS 论坛 提供反馈。

– Julien