亚马逊AWS官方博客

Tag: Rajiv Gupta

使用 AWS DMS 和 AWS Glue 持续加载数据湖更改

在 Amazon S3 上构建数据湖可让组织受益无穷。它允许您访问各种数据源,确定独特的关系,构建 AI/ML 模型来提供定制的客户体验,并加速新数据集的管理以供消费。但是,无论是在本地还是在 AWS 上,从运营数据存储中捕获不断变化的更新并将其加载到数据湖,都可能会非常耗时且难以管理。
下文演示了如何部署一个解决方案,将来自热门数据库源(如 Oracle、SQL Server、PostgreSQL 和 MySQL)的持续更改加载到您的数据湖中。该解决方案会将新数据和发生更改的数据流式传输到 Amazon S3。它还会创建和更新相应的数据湖对象,根据您配置的计划提供与数据源类似的数据视图。然后,AWS Glue Data Catalog 公开新更新和经过重复数据删除的数据,以供分析服务使用。