亚马逊AWS官方博客

Amazon Bedrock 知识库现在支持其他数据连接器(预览版)



使用适用于 Amazon Bedrock 的知识库,基础模型(FM)和代理可以从贵公司的私有数据来源中检索上下文信息,用于执行检索增强生成(RAG)。RAG 可帮助 FM 提供更相关、更准确和自定义程度更高的响应。

在过去的几个月中,我们不断向知识库中添加嵌入模型、向量存储和 FM 等选项。

今天,我很高兴与大家分享,除了 Amazon Simple Storage Service (Amazon S3) 之外,现在还可以将网域、Confluence、Salesforce 和 SharePoint 作为数据来源连接到 RAG 应用程序(预览版)。

选择网络爬虫作为数据来源

适用于网域、Confluence、Salesforce 和 SharePoint 的新数据来源连接器
通过包含网域,可以授予 RAG 应用程序访问公共数据(例如贵公司的社交媒体源)的权限,以增强用户输入响应的相关性、及时性和全面性。您现在可以使用新的连接器将 Confluence、Salesforce 和 SharePoint 中的现有公司数据来源添加到 RAG 应用程序中。

我将向您演示具体做法。在以下示例中,我将使用网络爬虫添加网域并将 Confluence 作为数据来源连接到知识库。将 Salesforce 和 SharePoint 作为数据来源连接遵循类似的模式。

添加网域作为数据来源
要尝试该操作,请导航到 Amazon Bedrock 控制台并创建知识库。提供知识库详细信息(包括名称和描述),并创建新服务角色或使用现有服务角色,这些服务角色都应具有相关 AWS Identity and Access Management (IAM) 权限。

创建知识库

然后,选择要使用的数据来源。我选择了网络爬虫

将其他数据来源与 Amazon Bedrock 知识库连接

在下一步中,我将配置网络爬虫。我输入网络爬虫数据来源的名称和描述。然后,我定义源 URL。在本演示中,我添加了我的 AWS 新闻博客作者页面的 URL,其中列出了我的所有帖子。您最多可以添加十个要抓取数据的网站的种子网址或起始网址。

将网络爬虫配置为数据来源

或者,您可以配置自定义加密设置和数据删除策略,数据删除策略用于定义删除数据来源时是保留还是删除向量存储数据。我保留默认的高级设置。

在同步范围部分中,您可以配置要使用的同步域的级别、每分钟要抓取的最大 URL 数以及用于包含或排除特定 URL 的正则表达式模式。

定义同步范围

完成网络爬虫数据来源配置后,通过选择嵌入模型并配置所选的向量存储来完成知识库设置。您可以在创建后检查知识库详细信息以监控数据来源同步状态。同步完成后,您可以测试知识库并查看以网络 URL 作为引文的 FM 响应。

测试您的知识库

要以编程方式创建数据来源,您可以使用 AWS 命令行界面(AWS CLI)AWS SDK。 有关代码示例,请查看《Amazon Bedrock 用户指南》。

将 Confluence 作为数据来源进行连接
现在,让我们在知识库设置中选择 Confluence 作为数据来源。

将 Confluence 作为数据来源与 Amazon Bedrock 知识库连接

要将 Confluence 配置为数据来源,我再次提供数据源的名称和描述,选择托管方法,然后输入 Confluence URL。

要连接到 Confluence,可以在基本身份验证和 OAuth 2.0 身份验证之间进行选择。在本演示中,我选择了基础身份验证,它需要用户名(您的 Confluence 用户账户电子邮件地址)和密码(Confluence API 令牌)。我将相关凭证存储在 AWS Secrets Manager 中,然后选择密钥。

注意:确保密钥名称以“AmazonBedrock-”开头,并且知识库的 IAM 服务角色有权在 Secrets Manager 中访问此密钥。

将 Confluence 配置为数据来源

在元数据设置中,您可以使用正则表达式的包含和排除模式控制要抓取的内容范围,并配置内容分块和解析策略。

将 Confluence 配置为数据来源

完成 Confluence 数据来源配置后,通过选择嵌入模型并配置您选择的向量存储来完成知识库设置。

您可以在创建后检查知识库详细信息以监控数据来源同步状态。同步完成后,您可以测试知识库。在本演示中,我在我的 Confluence 空间中添加了一些虚构的会议记录。让我们针对其中某次会议的行动项目进行提问!

Confluence 作为知识库的数据来源

有关如何将 Salesforce 和 SharePoint 作为数据来源进行连接的说明,请查看《Amazon Bedrock 用户指南》。

注意事项

  • 包含和排除过滤器 – 所有数据来源都支持包含和排除过滤器,因此您可以精细控制从给定源抓取哪些数据。
  • 网络爬虫 – 请记住,您只能在自己的网页或您有权抓取的网页上使用网络爬虫。

现已推出
新的数据来源连接器现已在提供 Amazon Bedrock 知识库的所有 AWS 区域中推出。查看区域列表以了解详细信息和未来的更新。要了解有关知识库的更多信息,请访问 Amazon Bedrock 产品页面。有关定价的详细信息,请参阅 Amazon Bedrock 定价页面

立即在 Amazon Bedrock 控制台中试用新的数据来源连接器,向 AWS re:Post for Amazon Bedrock 发送反馈或通过您平时的 AWS 联系人发送反馈,并通过 community.aws 与生成式人工智能构建者社区互动。

— Antje


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。