Amazon Bedrock 知识库现在支持其他数据连接器（预览版）

使用适用于 Amazon Bedrock 的知识库，基础模型（FM）和代理可以从贵公司的私有数据来源中检索上下文信息，用于执行检索增强生成（RAG）。RAG 可帮助 FM 提供更相关、更准确和自定义程度更高的响应。

在过去的几个月中，我们不断向知识库中添加嵌入模型、向量存储和 FM 等选项。

今天，我很高兴与大家分享，除了 Amazon Simple Storage Service (Amazon S3) 之外，现在还可以将网域、Confluence、Salesforce 和 SharePoint 作为数据来源连接到 RAG 应用程序（预览版）。

适用于网域、Confluence、Salesforce 和 SharePoint 的新数据来源连接器
通过包含网域，可以授予 RAG 应用程序访问公共数据（例如贵公司的社交媒体源）的权限，以增强用户输入响应的相关性、及时性和全面性。您现在可以使用新的连接器将 Confluence、Salesforce 和 SharePoint 中的现有公司数据来源添加到 RAG 应用程序中。

我将向您演示具体做法。在以下示例中，我将使用网络爬虫添加网域并将 Confluence 作为数据来源连接到知识库。将 Salesforce 和 SharePoint 作为数据来源连接遵循类似的模式。

添加网域作为数据来源
要尝试该操作，请导航到 Amazon Bedrock 控制台并创建知识库。提供知识库详细信息（包括名称和描述），并创建新服务角色或使用现有服务角色，这些服务角色都应具有相关 AWS Identity and Access Management (IAM) 权限。

然后，选择要使用的数据来源。我选择了网络爬虫。

在下一步中，我将配置网络爬虫。我输入网络爬虫数据来源的名称和描述。然后，我定义源 URL。在本演示中，我添加了我的 AWS 新闻博客作者页面的 URL，其中列出了我的所有帖子。您最多可以添加十个要抓取数据的网站的种子网址或起始网址。

或者，您可以配置自定义加密设置和数据删除策略，数据删除策略用于定义删除数据来源时是保留还是删除向量存储数据。我保留默认的高级设置。

在同步范围部分中，您可以配置要使用的同步域的级别、每分钟要抓取的最大 URL 数以及用于包含或排除特定 URL 的正则表达式模式。

完成网络爬虫数据来源配置后，通过选择嵌入模型并配置所选的向量存储来完成知识库设置。您可以在创建后检查知识库详细信息以监控数据来源同步状态。同步完成后，您可以测试知识库并查看以网络 URL 作为引文的 FM 响应。

要以编程方式创建数据来源，您可以使用 AWS 命令行界面（AWS CLI）或 AWS SDK。有关代码示例，请查看《Amazon Bedrock 用户指南》。

将 Confluence 作为数据来源进行连接
现在，让我们在知识库设置中选择 Confluence 作为数据来源。

要将 Confluence 配置为数据来源，我再次提供数据源的名称和描述，选择托管方法，然后输入 Confluence URL。

要连接到 Confluence，可以在基本身份验证和 OAuth 2.0 身份验证之间进行选择。在本演示中，我选择了基础身份验证，它需要用户名（您的 Confluence 用户账户电子邮件地址）和密码（Confluence API 令牌）。我将相关凭证存储在 AWS Secrets Manager 中，然后选择密钥。

注意：确保密钥名称以“AmazonBedrock-”开头，并且知识库的 IAM 服务角色有权在 Secrets Manager 中访问此密钥。