- 数据库›
- Amazon DocumentDB›
- 常见问题
Amazon DocumentDB(兼容 MongoDB)常见问题
一般性问题
全部打开Amazon DocumentDB 是一项无服务器、完全托管、与 MongoDB API 兼容的文档数据库服务。它消除了诸如修补、备份和监控等数据库管理任务的无差别繁重工作。Amazon DocumentDB 通过全球集群和领先的安全性与合规性提供更高的弹性和低延迟,旨在满足全球银行等高敏感度组织的要求。它提供低总拥有成本(TCO),定价透明,没有隐性成本。与其他热门文档数据库相比,其内存优化型实例最多可节省 43% 的成本。I/O 优化版可提供更高的性价比,针对 I/O 密集型应用程序最多可节省 40% 的成本。Amazon DocumentDB 与 MongoDB API 和驱动程序兼容,因此您可以迁移应用程序,通常无需更改应用程序代码或停机。
“与 MongoDB 兼容”意味着 Amazon DocumentDB 可与 Apache 2.0 开源 MongoDB API 进行交互。因此,您可以将相同的 MongoDB 驱动程序、应用程序和工具与 Amazon DocumentDB 配合使用,但只需进行少量更改或无需任何更改。虽然 Amazon DocumentDB 支持客户使用的绝大多数 MongoDB API,但它不支持所有的 MongoDB API。我们的重点是提供客户所需要的功能。
我们从客户需求出发,提供诸如 MongoDB API 兼容性、事务和分片等功能。要了解有关支持的 MongoDB API 的更多信息,请参阅我们的兼容性文档。要了解最近推出的 Amazon DocumentDB,请参阅我们的新增内容源。
Amazon DocumentDB 8.0 通过添加对 MongoDB 8.0 API 驱动程序的支持,提供与 MongoDB 8.0 的兼容性。您可以将在 MongoDB 6.0、7.0 和 8.0 上运行的工作负载迁移到 Amazon DocumentDB 8.0。您可以在 Amazon DocumentDB 8.0 中使用现有的 MongoDB 驱动程序、工具和应用程序代码。
对于 MongoDB 3.6、4.0 和 5.0 应用程序,Amazon DocumentDB 将继续在相应版本(Amazon DocumentDB 3.6、4.0 和 5.0)中支持这些 API。
否。Amazon DocumentDB 不使用任何 MongoDB SSPL 代码,因此不受此许可证的限制。相反,Amazon DocumentDB 可与 Apache 2.0 开源 MongoDB API 进行交互。我们将继续倾听客户的心声,与他们开展逆向思维合作,以提供他们所需要的功能。要了解有关支持的 MongoDB API 的更多信息,请参阅兼容性文档。
客户可以使用 AWS Database Migration Service(DMS),将本地部署或 Amazon Elastic Compute Cloud(EC2)MongoDB 数据库迁移到 Amazon DocumentDB,并且几乎不会出现停机。借助 DMS,您可以从 MongoDB 副本集或从分片式集群迁移到 Amazon DocumentDB。此外,您还可以使用大多数现有工具将数据从 MongoDB 数据库迁移到 Amazon DocumentDB,包括 mongodump/mongorestore、mongoexport/mongoimport 以及通过操作日志为变更数据捕获(CDC)提供支持的第三方工具。有关更多信息,请参阅迁移到 Amazon DocumentDB。
不需要,Amazon DocumentDB 可以与大多数兼容 MongoDB 版本 3.6、4.0 和 5.0 的 MongoDB API、驱动程序和工具配合使用。
是。发布了对 MongoDB 4.0 兼容性的支持后,Amazon DocumentDB 支持跨多个文档、语句、集合和数据库执行原子性、一致性、隔离性、持久性(ACID)事务处理。要了解更多信息,请参阅我们的文档 Amazon DocumentDB 中的事务。
不需要,Amazon DocumentDB 不遵守相同的支持生命周期,因为 MongoDB 和 MongoDB 的 EOL 计划不适用于 Amazon DocumentDB。
Amazon DocumentDB 实例部署在客户的 Amazon Virtual Private Cloud(Amazon VPC)中,并且可由部署在同一 VPC 中的 Amazon Elastic Compute Cloud(Amazon EC2)实例或其他 AWS 服务直接访问。此外,Amazon DocumentDB 还可供部署在同一区域或其他区域的不同 VPC 中的 Amazon EC2 实例或其他 AWS 服务通过 VPC 对等连接访问。您必须通过 Mongo Shell 或 MongoDB 驱动程序访问 Amazon DocumentDB 实例。Amazon DocumentDB 要求您在连接到集群时进行身份验证。有关其他选项,请参阅从 Amazon VPC 外部连接到 Amazon DocumentDB 实例。
对于一些管理功能,例如实例生命周期管理、使用 Amazon Key Management Service(KMS)密钥加密静态数据和安全组管理,Amazon DocumentDB 利用了与 Amazon Relational Database Service(RDS)和 Amazon Neptune 共享的操作技术。使用 describe-db-instances 和 describe-db-clusters AWS CLI API 时,建议使用以下参数筛选 Amazon DocumentDB 资源:“--filter Name=engine,Values=docdb”。
请参阅 Amazon DocumentDB 定价页面,了解在每个区域可用的实例类型的最新信息。
要试用 Amazon DocumentDB,请参阅入门指南。
是的,Amazon DocumentDB 提供正常运行时间为 99.99% 的服务水平协议,分别适用于使用 Amazon DocumentDB 的每个账户。有关更多信息,请参阅 Amazon DocumentDB(兼容 MongoDB)服务水平协议。
由 Linux 基金会管理的开源 DocumentDB 项目旨在为开发人员社区提供基于 PostgreSQL、完全兼容 MongoDB API 的文档数据库。2025 年 8 月,AWS 宣布将作为技术指导委员会成员加入该项目。
虽然开源 DocumentDB 和 Amazon DocumentDB 的名字都使用了 DocumentDB,并且都兼容 MongoDB API,但这是两个不同的软件。Amazon DocumentDB 是由 AWS 从头开始构建的,而开源 DocumentDB 是作为 PostgreSQL 的扩展构建的。AWS 将继续投资 Amazon DocumentDB 和开源 DocumentDB,就像我们投资 Amazon OpenSearch Service 和 OpenSearch 一样。我们将为开源项目贡献 Amazon DocumentDB 的创新,并将开源 DocumentDB 的特性和功能应用于我们托管的 Amazon DocumentDB 服务。
无服务器
全部打开Amazon DocumentDB 无服务器是 Amazon DocumentDB 的按需自动扩缩配置。Amazon DocumentDB 无服务器可根据应用程序需求以细粒度的增量自动扩展或缩减容量,相比按峰值容量预置,最多可节省 90% 的成本。对于工作负载可变的应用程序,Amazon DocumentDB 无服务器提供简化的资源管理,无需预先承诺或额外费用,因此您只需为使用的数据库容量付费。Amazon DocumentDB 无服务器提供与 Amazon DocumentDB 相同的兼容 MongoDB 的 API 和功能,包括只读副本、性能详情和 I/O 优化存储。
借助 Amazon DocumentDB 无服务器,您可以创建数据库,指定所需的数据库容量范围,然后连接您的应用程序。Amazon DocumentDB 根据应用程序的需要,在指定的范围内自动调整容量。您需要为数据库处于活动状态时所使用的数据库容量按每秒支付费用。
Amazon DocumentDB 无服务器在 Amazon DocumentDB 5.0 中可用于新集群和现有集群。 Amazon DocumentDB 8.0 目前不支持无服务器。
是的,您可以随时在无服务器与选择预置数据库资源之间切换。在无服务器与预置资源之间切换之前,务必确保您的工作负载保持足够的性能。您可以通过克隆 DocumentDB 集群并在克隆的集群上应用所需配置进行测试,来测试所需配置,然后再对生产环境应用相同的更改。您也可以随时切换到以前的配置,轻松地回退。
是的,您可以使用 AWS 管理控制台、AWS CLI 或 Amazon DocumentDB API 将容量明确设置为具体的值。
是的,您可以开始使用 Amazon DocumentDB 无服务器来管理您的现有 Amazon DocumentDB 实例中的数据库计算容量。同时包含预置实例以及 Amazon DocumentDB 无服务器的集群称为混合配置集群。您可以选择在集群中使用预置实例和 Amazon DocumentDB 无服务器的任何组合。
Amazon DocumentDB 无服务器支持与 Amazon DocumentDB 相同的兼容 MongoDB 的 API 和功能,包括事务、AWS 可用区和性能详情。它不支持 Elastic Clusters。
在 Amazon DocumentDB 无服务器中,数据库容量以 Amazon DocumentDB 容量单位(DCU)来衡量。您按每秒的 DCU 使用量支付统一价格。在 Amazon DocumentDB 无服务器上运行工作负载的计算成本将取决于您选择的数据库集群配置:Amazon DocumentDB 标准版或 Amazon DocumentDB I/O 优化版存储。有关定价和区域可用性的最新信息,请访问 Amazon DocumentDB 定价页面。
性能和扩展
全部打开Amazon DocumentDB 专为大规模实现可预测的高性能而设计。对于读取密集型工作负载,您可以添加多达 15 个共享相同底层存储的只读副本,从而避免副本写入开销并提供更高的总读取吞吐量,同时保持副本延迟通常只有几毫秒。您的数据将在三个可用区中复制,并具有快速失效转移功能,可快速恢复。
Amazon DocumentDB 在两个维度上扩展:存储和计算。在基于实例的集群中,Amazon DocumentDB 存储空间可自动从 10GB 扩展到 128TiB,而对于 Amazon DocumentDB Elastic Clusters,最多可扩展到 4PiB。Amazon DocumentDB 的计算可以通过创建更大的实例来垂直扩展,也可以通过向集群中添加额外的副本实例来横向扩展(从而获得更大的读取吞吐量)。
最低存储为 10GiB。根据您的集群使用情况,您的 Amazon DocumentDB 存储将以 10GiB 的增量自动增长到 128TiB,而不会影响性能。使用 Amazon DocumentDB Elastic Clusters,存储将以 10GiB 的增量自动增长到 4PiB。无论是哪种情况,都无需提前预置存储。
定价
全部打开有关定价和区域可用性的最新信息,请参阅 Amazon DocumentDB 定价页面。
可以。您现在可以免费试用 Amazon DocumentDB 一个月。您的组织可享有长达 750 小时的 t3.medium 实例使用时间、3000 万次 IO、5GB 存储和 5GB 备份存储。如果您的一个月免费试用到期或者您的使用时长超过免费限额,您可以关闭集群,从而避免产生任何费用,或者让集群继续运行并按我们的标准按需费率支付费用。详情请参阅 DocumentDB 免费试用页面。
是的,您可以为自己的 Amazon DocumentDB 使用购买数据库节省计划,当您承诺在 1 年期限内保持稳定的使用量时,成本最多可降低 30%。 有关符合条件的使用情况的更多信息,请参阅数据库节省计划定价页面。
当您需要可预测的成本或具有 I/O 密集型应用程序时,Amazon DocumentDB I/O 优化版是理想的选择。如果您预计 I/O 成本超过 Amazon DocumentDB 数据库总成本的 25%,则此选项可提供更高的性价比。请参阅我们的 Amazon DocumentDB I/O 优化版文档以了解更多信息,包括如何开始。
您可以每 30 天将现有数据库集群切换到 Amazon DocumentDB I/O 优化版。您可以随时切换回 Amazon DocumentDB 标准存储配置。
是的,跨区域复制数据所需的 I/O 操作将继续收取费用。Amazon DocumentDB I/O 优化版不对读取和写入 I/O 操作收费,这与数据复制不同。要了解更多信息,请参阅我们的 Amazon DocumentDB I/O 优化版文档。
Elastic Clusters
全部打开您可以使用 Amazon DocumentDB API、SDK、CLI、CloudFormation(CFN)或 AWS 管理控制台创建 Elastic Clusters 集群。预置集群时,需要指定工作负载所需的分片数量和每个分片的计算量。创建集群后,便可以开始利用 Elastic Clusters 的弹性可扩展性了。现在,您可以连接到 Elastic Clusters 集群并从应用程序读取或写入数据。Elastic Clusters 具有弹性。根据工作负载的需要,可以通过使用 AWS 管理控制台、API、CLI 或 SDK 修改分片数量和/或每个分片的计算量来添加或删除计算。Elastic Clusters 将自动预置/取消预置底层基础设施,并重新平衡数据。
Elastic Clusters 使用分片在 Amazon DocumentDB 的分布式存储系统中对数据进行分区。分片(也称为分区)可将大型数据集跨多个节点拆分为小型数据集,从而使客户能够超越单个数据库的垂直扩展限制横向扩展数据库。Elastic Clusters 利用 Amazon DocumentDB 中的计算与存储相分离的特性。Elastic Clusters 可以在分布式存储系统内高效地复制数据,而不是通过在计算节点之间移动小数据块来对集合重新分区。
Elastic Clusters 支持基于哈希的分区。
利用 Elastic Clusters,无论数据大小如何,都可以轻松地在 Amazon DocumentDB 上横向扩展或横向缩减工作负载,通常情况下,几乎没有应用程序停机或性能影响。MongoDB 上的类似操作会影响应用程序性能,且需要数小时,有时甚至数天。Elastic Clusters 还提供了差异化的管理功能,如无影响备份和快速时间点还原,使客户能够将更多的时间集中在应用程序上,而不是管理数据库上。
不需要。无需对应用程序进行任何更改即可使用 Elastic Clusters。
不可以,在近期内,您可以使用 AWS Database Migration Service(AWS DMS)将数据从现有的 Amazon DocumentDB 实例集群迁移到 Elastic Clusters 集群。
为 Elastic Clusters 选择最佳分片键与其他数据库没有任何区别。好的分片键有两个特性 – 高频率和高基数。例如,如果应用程序将 user_orders 存储在 DocumentDB 中,那么通常必须按用户检索数据。因此,您希望与给定用户相关的所有订单都位于一个分片中。在这种情况下,user_id 将是一个很好的分片键。阅读更多信息。
Elastic Clusters 与其他 AWS 服务的集成方式与目前的 DocumentDB 相同。首先,可以使用 AWS Database Migration Service(DMS)从 MongoDB 和其他关系数据库迁移到 Elastic Clusters。其次,可以使用 Amazon CloudWatch 监控 Elastic Clusters 集群的运行状况和性能。第三,可以通过 AWS IAM 用户和角色设置身份验证和授权,并使用 AWS VPC 建立只支持 VPC 的安全连接。最后,可以使用 AWS Glue 将数据导入到其他 AWS 服务(如 S3、Redshift 和 OpenSearch)以及从其他服务导出数据。
可以。可以将现有的 MongoDB 分片工作负载迁移到 Elastic Clusters。可以使用 AWS Database Migration Service 或原生 MongoDB 工具(如 mongodump 和 mongorestore)将 MongoDB 工作负载迁移到 Elastic Clusters。Elastic Clusters 还支持 MongoDB 的常用 API,如 shardCollection(),从而您能够灵活地在 Amazon DocumentDB 中重用现有的工具和脚本。
备份与恢复
全部打开Amazon DocumentDB 集群上始终都会启用自动备份。借助 Amazon DocumentDB,您可以对集群进行时间点恢复。您最多可以将时间点还原的备份时间延长至 35 天。备份不影响数据库性能。要了解更多信息,请参阅在 Amazon DocumentDB 中进行备份和恢复。
可以。您可以在过了备份时间保留手动快照,而且在拍摄快照时不会影响性能。请注意,从集群快照中恢复数据需要创建一个新的集群。
Amazon DocumentDB 可跨一个区域的三个可用区(AZ)自动维护您的数据持久性,并将自动尝试在运行状况正常的可用区恢复您的实例,而不会造成数据丢失。如果您的数据在 Amazon DocumentDB 存储中可用,您可以从集群快照中进行还原或对新集群执行时间点还原操作。请注意,时间点还原操作的最迟可还原时间在过去最长可达 5 分钟。
在账户之间共享快照不需要付费。但是,您需要为快照本身以及通过共享快照还原的任何集群付费。
我们不支持共享自动集群快照。要共享自动快照,您必须手动创建一个快照,然后共享该快照。
不能。只有与共享快照的账户位于同一区域的账户才能访问您的共享 Amazon DocumentDB 快照。
可以。您可以共享加密的 Amazon DocumentDB 快照。共享快照的接收者必须能够访问用于加密快照的 KMS 密钥。
不能。Amazon DocumentDB 快照只能在该服务内部使用。
您可以选择在删除集群时创建最终快照。这样,您便可使用此快照稍后还原已删除的集群。在删除集群后,Amazon DocumentDB 会将这个用户创建的最终快照与所有其他手动创建的快照一起保留。
富有弹性
全部打开Amazon DocumentDB 会将您的存储卷分成分散在多个磁盘上的 10GiB 分段。我们会让您的数据在三个可用区(AZ)中持久存储,您只需为一份副本付费。Amazon DocumentDB 的设计能以透明方式应对多达两个数据副本丢失的情况,而不会影响写入可用性,还能在不影响读取可用性的情况下应对多达三个副本丢失的情况。Amazon DocumentDB 存储卷还具有自我修复能力。可连续扫描数据块和磁盘有无出错并自动将其修复。
与其他数据库不同的是,Amazon DocumentDB 在数据库崩溃之后不需要重放最后一个数据库检查点(通常为五分钟)的重做日志,且不需要在数据库可用于操作之前确认所有更改都已应用。在大多数情况下,这会将数据库的重启时间缩短到 60 秒以下。Amazon DocumentDB 会将缓存移出数据库进程,并在重启时使其立即可用。这将防止您限制访问,直到重新填充缓存以避免停止。
Amazon DocumentDB 支持只读副本,这些副本与主实例共享相同的底层存储卷。主实例作出的更新对所有的 Amazon DocumentDB 副本可见。您最多可以配置 15 个只读副本。复制是异步的,通常在几毫秒内完成,对主实例性能的影响很小。要了解更多信息,请参阅 Amazon DocumentDB 高可用性和复制。
可以。您可以为集群中的每个实例指定一个提升优先级分层。如果主实例发生故障,Amazon DocumentDB 会将优先级最高的副本提升为主实例。如果同一优先级分层中的两个或更多副本出现不一致,Amazon DocumentDB 将提升大小与主实例相同的副本。
您随时可以修改实例的优先级分层。单纯地修改优先级分层并不会触发失效转移。
如果您不希望副本被提升为主实例,则可为其指定较低的优先级分层。不过,如果集群上优先级较高的副本因为某些原因无法运行或使用,那么 Amazon DocumentDB 将提升优先级较低的副本。
Amazon DocumentDB 可以通过将多个 AWS 可用区中的副本实例用作失效转移目标来采用高可用性配置进行部署。如果主实例发生故障,副本实例将在尽可能不中断服务的情况下被自动提升为新的主实例。
您可以添加额外的 Amazon DocumentDB 副本。Amazon DocumentDB 副本与主实例共享同一个底层存储。任何 Amazon DocumentDB 副本都能在不丢失任何数据的情况下被提升为主实例,因此可以用于在主实例发生故障时提高容错能力。要提高集群可用性,只需在多个可用区中创建 1 到 15 个副本,且 Amazon DocumentDB 会在实例发生故障时自动将其纳入失效转移主选择中。
Amazon DocumentDB 会自动处理失效转移,以便您的应用程序可以尽快恢复数据库操作,而无需人工管理干预。
- 如果您在相同或不同的可用区中有 Amazon DocumentDB 副本实例,当进行失效转移时,Amazon DocumentDB 会翻转您的实例的规范名称记录(CNAME)以指向运行状态正常的副本;相应地,此副本会晋升为新的主实例。从开始到结束,故障转移通常会在 30 秒内完成。
- 如果您没有 Amazon DocumentDB 副本实例(即单个实例集群),Amazon DocumentDB 将尝试在与原实例相同的可用区中创建新实例。原实例会尽量替换,但可能不会成功,例如出现全面影响该可用区的问题时。
您的应用程序应会在连接丢失时重试数据库连接。
Amazon DocumentDB 将自动检测您的主实例发生的问题,并开始将您的读取/写入流量路由到 Amazon DocumentDB 副本实例。平均来说,此故障转移将在 30 秒内完成。此外,您的 Amazon DocumentDB 副本实例提供的读取流量将短暂中断。
Amazon DocumentDB 副本与主实例共享同一个数据卷,因此几乎没有复制滞后。据我们观察,滞后时间一般在 10 毫秒内。
安全性与合规性
全部打开可以。所有 Amazon DocumentDB 实例都必须在 Amazon VPC 中创建。借助 Amazon VPC,您可以定义一个与自己数据中心内的传统网络非常相似的虚拟网络拓扑。这样一来,您便可完全控制谁能访问您的 Amazon DocumentDB 实例。
Amazon DocumentDB 通过内置角色支持 RBAC。RBAC 可以限制用户有权执行的操作,使您可以将最低权限作为最佳实践执行。有关更多信息,请参阅 Amazon DocumentDB 基于角色的访问控制。
Amazon DocumentDB 利用 Amazon VPC 来强制执行严格的网络和授权边界。Amazon DocumentDB 管理 API 的身份验证和授权由 IAM 用户、角色和策略提供。对 Amazon DocumentDB 数据库的身份验证是使用 Salted Challenge Response Authentication Mechanism (SCRAM) 通过标准的 MongoDB 工具和驱动程序完成的,这是 MongoDB 的默认身份验证机制。
可以。Amazon DocumentDB 支持您使用通过 AWS Key Management Service(KMS)管理的密钥来加密集群。在通过 Amazon DocumentDB 加密运行的集群实例上,静态存储于底层存储的数据都经过加密,同一集群的自动备份、快照和副本也是如此。加密和解密操作的处理都是无缝的。有关将 KMS 与 Amazon DocumentDB 配合使用的更多信息,请参阅加密静态 Amazon DocumentDB 数据。
目前不支持加密现有的未加密 Amazon DocumentDB 实例。要将 Amazon DocumentDB 加密用于现有的未加密集群,请在启用加密的情况下创建新集群,并将您的数据迁移到该集群中。
Amazon DocumentDB 旨在满足最高安全标准,并方便您验证我们的安全性以及履行您自己的法规和合规义务。它经评估符合 PCI DSS、ISO 9001、27001、27017 和 27018、SOC 1、2 和 3 以及健康信息信任联盟(HITRUST)共同安全框架(CSF)认证,并且符合 HIPAA 要求。您可在 AWS Artifact 中下载 AWS 合规报告。
主要版本升级
全部打开就地主要版本升级(MVU)可让您使用 AWS 管理控制台、软件开发工具包(SDK)或命令行界面(CLI)将 Amazon DocumentDB 3.6 或 4.0 集群升级到 Amazon DocumentDB 5.0。使用就地 MVU 无需创建新集群或更改端点。就地 MVU 从 Amazon DocumentDB 版本 5.0 开始可用。要开始使用就地 MVU,请查看就地 MVU 文档。
就地 MVU 可让您将 Amazon DocumentDB 3.6 或 4.0 集群无缝升级到版本 5.0,而无需执行备份和还原到另一个集群,也无需使用其他数据迁移工具。这样便可减少与常规升级过程相关的时间和精力,因为常规升级过程需要配置源端点和目标端点、迁移索引和数据、更改应用程序代码等。
升级后,您无需在应用程序中更改端点。由于数据保留在同一集群中,因此使用该功能升级无需额外费用。
不同集群的停机时间可能有所不同,具体视集合、索引、数据库和实例的数量而定。在生产集群上运行就地主要版本升级之前,我们强烈建议在较低的环境中运行该升级,以测试停机时间和性能,并验证升级后应用程序是否按预期工作。
您还可以利用快速克隆功能来克隆集群数据以进行测试。根据您的 Amazon DocumentDB 实施的复杂性,您可以联系我们的数据库解决方案架构师寻求更多帮助。
仅支持 Amazon DocumentDB 3.6 或 4.0 作为源,版本 5.0 作为目标的就地 MVU。该功能不支持 Amazon DocumentDB Global Clusters 或 Elastic Clusters 或者以 DocumentDB 4.0 作为目标。
生成式人工智能
全部打开向量搜索是机器学习(ML)中使用的一种方法,通过使用距离或相似性度量比较向量表示来查找与给定数据点相似的数据点。两个向量在向量空间中越接近,则认为底层项目越相似。此技术有助于捕捉数据的含义或语义。这种方法在各种应用中都很有用,例如推荐系统、自然语言处理和图像识别。
Amazon DocumentDB 的向量搜索将基于 JSON 的文档数据库的灵活性和丰富的查询功能与向量搜索的强大功能相结合。您可以使用现有的 Amazon DocumentDB 数据或灵活的文档数据结构来构建机器学习和生成式人工智能使用案例,例如语义搜索体验、产品推荐、个性化、聊天机器人、欺诈检测和异常检测。请访问 Amazon DocumentDB 向量搜索文档以了解更多信息。
Amazon DocumentDB 的向量搜索可在基于 Amazon DocumentDB 5.0 实例的集群上使用。
Amazon DocumentDB 的向量搜索支持使用语义搜索,因此您可以捕获数据背后的含义、上下文和意图。关键字搜索根据实际文本或预定义的同义词映射来查找文档。例如,在传统的电子商务应用程序中,搜索“红色连衣裙”可能会返回描述中包含“红色”和“连衣裙”字样的产品。语义搜索则会检索包含不同色调的红色连衣裙的结果,这就可以改善用户体验。
使用 Amazon DocumentDB 的向量搜索无需支付额外费用。当您在 Amazon DocumentDB 中存储、索引和搜索向量时,将收取标准计算、I/O、存储和备份费用。请访问 Amazon DocumentDB 定价页面以了解更多信息。
Amazon DocumentDB 与 Amazon SageMaker Canvas 集成,让您可以轻松构建机器学习(ML)模型,并使用 Amazon DocumentDB 中存储的数据自定义基础模型,而无需编写任何代码。您不再需要在 Amazon DocumentDB 和 SageMaker Canvas 之间开发自定义数据和 ML 管道。您可以从 Amazon DocumentDB 控制台中启动 SageMaker Canvas,并将现有 Amazon DocumentDB 数据库添加为数据来源,以开始构建机器学习模型。您可以使用 SageMaker Canvas 中的 DocumentDB 中的数据构建模型来预测客户流失、检测欺诈、预测维护故障、预测财务指标和销售、优化库存、汇总内容以及生成内容。
Amazon DocumentDB 与 Amazon SageMaker Canvas 的集成,让您可以使用 Amazon DocumentDB 中存储的数据轻松构建生成式人工智能(AI)和机器学习(ML)应用程序。您不再需要在 Amazon DocumentDB 和 SageMaker Canvas 之间开发自定义数据和 ML 管道。控制台内集成消除了连接和访问数据的无差别繁重工作,从而通过低代码无代码(LCNC)体验加速您的 ML 开发。您可以从 Amazon DocumentDB 控制台中启动 SageMaker Canvas,并将现有 Amazon DocumentDB 数据库添加为数据来源。
Amazon SageMaker Canvas 提供了一个无代码界面,可使用来自各种数据来源(包括 Amazon DocumentDB)的数据来构建机器学习模型。您需要为使用 SageMaker Canvas 以及 SageMaker Canvas 从 Amazon DocumentDB 实例读取数据时产生的 I/O 付费。使用 DocumentDB 作为 Amazon SageMaker Canvas 中的数据来源无需额外付费。请访问 Amazon DocumentDB 定价页面和 SageMaker Canvas 定价页面以了解更多信息。
零 ETL 集成
全部打开Amazon DocumentDB 与 Amazon OpenSearch Service 的零 ETL 集成消除了从 Amazon DocumentDB 集合中提取、转换和加载(ETL)数据到 Amazon OpenSearch 托管集群或无服务器集合的复杂操作。通过这种集成,您不再需要构建或管理数据管线或转换数据。
如果您想使用 MongoDB API,则应使用 Amazon DocumentDB 的原生数据库功能对文档数据执行向量搜索。Amazon DocumentDB 与 Amazon OpenSearch Service 的零 ETL 集成非常适合跨集合进行搜索,以及存储和索引维度超过 2000 个的向量。
Amazon DocumentDB 与 Amazon OpenSearch Service 的零 ETL 集成使用 Amazon OpenSearch Ingestion 将操作性数据从 Amazon DocumentDB 无缝移动到 Amazon OpenSearch Service。首先,在需要复制的 Amazon DocumentDB 集合上启用更改流功能。零 ETL 集成功能会在您的账户中设置 Amazon OpenSearch Ingestion 管线,该管线自动将数据复制到 Amazon OpenSearch Service 托管集群或无服务器集合。
Amazon OpenSearch Ingestion 会自动理解 Amazon DocumentDB 集合中数据的格式,并将数据映射到 Amazon OpenSearch Service,以产生性能最优的搜索结果。您可以通过多个管线将来自多个 Amazon DocumentDB 集合的数据同步到一个 Amazon OpenSearch 托管集群或无服务器集合中,以提供对多个应用程序的全面洞察。或者,您可以在 Amazon OpenSearch Service 中定义摄取配置时指定自定义数据处理器。Amazon DocumentDB 集合的后续更新也将复制到 Amazon OpenSearch Service,无需任何手动干预。
此零 ETL 集成利用 Amazon OpenSearch Ingestion 管线的原生数据转换功能,对动态数据进行聚合和筛选。
如果您需要定制的转换功能,也可以编写自定义转换逻辑,Amazon OpenSearch Ingestion 将管理转换过程。或者,如果想要在不进行自定义的情况下将全部数据从源移至目标位置,Amazon OpenSearch Ingestion 将提供开箱即用的蓝图,这样您只需单击几下按钮即可执行集成。
为确保 Amazon OpenSearch Ingestion 拥有从 Amazon DocumentDB 复制数据的必要权限,零 ETL 集成功能会创建一个 IAM 角色,该角色具有从 Amazon DocumentDB 集合中读取数据并写入 Amazon OpenSearch 域或集合所需的权限。然后,Amazon OpenSearch Ingestion 管道将担任此角色,以确保在将数据从源移至目标时始终保持正确的安全状态。
您可以在 Amazon DocumentDB 和 OpenSearch Ingestion 管线提供的控制台控制面板上查看与 Amazon DocumentDB 的零 ETL 集成相关的所有指标。您还可以在 Amazon CloudWatch 中查询实时日志,并使用 Amazon CloudWatch 设置自定义警报,这些警报将在突破用户定义的阈值时触发。