发布于: Jul 14, 2020

Amazon Athena 现在支持在基于 Amazon S3 的数据湖中查询 Apache Hudi 数据集的读取优化视图。 

Apache Hudi 是一种开源数据管理框架,用于简化增量数据处理和数据管道开发工作。Hudi 可让基于 Amazon S3 的数据湖遵从数据隐私保护法律的要求,使用实时数据流和更改数据捕获日志,恢复延迟到达的数据,跟踪更改历史记以及进行回滚等。Apache Hudi 是一个开源项目,支持以开源格式(例如 Apache Parquet 和 Apache Avro)在 Amazon S3 上存储数据。 

数据工程师可利用 Amazon EMR 中的 Apache Hudi 支持来开发数据管道,并简化需要进行记录级别插入、更新和删除操作的增量数据管理和数据隐私使用案例。在本次发布后,客户现在可以运行 Athena 查询来读取 Hudi 数据集的读取优化视图。 

有关如何创建 Hudi 表和运行查询的信息和示例,请访问文档