发布于: Feb 6, 2023

AWS Glue 爬网程序支持 MongoDB 提取数据模式并将其自动填充到 AWS Glue Data Catalog 中,从而使元数据保持最新状态。现在,我们将扩大支持范围,以增加对 MongoDB Atlas 的支持。此功能使将托管的 MongoDB Atlas 元数据导入 AWS Glue Data Catalog 变得更加简单,这样数据工程师就可以将 MongoDB Atlas 数据与基于 S3 的数据湖集成,并提取有意义的见解。 

随着今天发布此功能,您可以创建和安排 Glue 爬网程序来爬取 MongoDB Atlas。在 Glue 爬网程序控制台中,您可以选择 MongoDB 作为数据源。然后,您可以创建连接类型为“DocumentDB/MongoDB”的 Glue 连接,并提供 MongoDB Atlas 集群信息和凭证。创建配置后,您可以指定要爬取的 MongoDB Atlas 数据库和集合。每次运行爬网程序时,爬网程序都会检查指定的集合和目录信息。这包括更新或删除 AWS Glue Data Catalog 中的 MongoDB Atlas 集合、视图和实体化视图。借助 AWS Glue,您现在可以使用 AWS Glue Data Catalog 作为源,以从 MongoDB Atlas 中提取数据并填充 Amazon S3 目标。

AWS Glue 爬网程序对 MongoDB Atlas 的支持已在所有提供 AWS Glue 的商业区域全面推出。要了解更多信息,请阅读此博客,并访问 AWS Glue 爬网程序文档