亚马逊AWS官方博客

Category: AWS Big Data

异构 ETL 环境的 AI 驱动数据血缘管理系统

介绍了一种AI驱动的数据血缘管理系统,旨在解决异构 ETL 环境下数据管道碎片化导致的数据治理和调试难题。该系统通过集成 OpenLineage 等工具,实现跨平台、端到端的数据血缘可视化和追踪,帮助用户快速定位数据问题、评估字段修改影响、识别废弃资产,并监控异常节点(如孤儿节点和僵尸节点),从而将数据资产转化为可信赖的商业智能。

使用 Serverless 架构快速构建基于 Iceberg 的事务型实时数据湖

目前大部分使用数据湖技术的场景,需要托管大规模的大数据集群,例如 Kafka 集群,Hadoop 集群等等,但是,由于集群的运维复杂度和资源弹性管理需要投入大量的人力。并且如果需要实现从数据库到数据湖的实时同步,需要对数据库事务性的数据变更进行单独的处理,才能够使得数据库与数据湖之间数据保持一致性。因此,本文提出基于 AWS 中相关的 Serverless 服务来构建数据湖,该方案主要利用 AWS 中 MSK Connect,MSK Serverless,Glue,Athena 来构建无服务的数据湖方案。