发布于: May 9, 2023

您现在可以通过 Amazon Athena 查询使用 Apache Hudi 0.12.2 创建的表,Apache Hudi 0.12.2 支持提高访问 Amazon S3 数据湖中数据集的查询的可扩展性。更新后的集成使您能够使用 Athena 查询通过 Amazon EMR、Apache Spark、Apache Hive 或其他兼容服务管理的 Hudi 0.12.2 表。

Apache Hudi 是一种开源数据管理框架,用于简化 S3 数据湖中的增量数据处理。Hudi 提供记录级数据处理,可帮助您简化变更数据捕获 (CDC) 管道的开发,遵守由《通用数据保护条例》驱动的更新和删除,并更好地管理来自需要数据插入和事件更新的传感器或设备的流数据。0.12.2 版本包括对元数据表的支持,元数据表让您无需“列出文件”,以便更好地支持在更大的数据集上进行有效扩展。元数据表将主动维护文件列表,让您无需执行递归文件列出操作,以避免在 Amazon S3 等存储系统中遇到请求限制。

对 Apache Hudi 0.12.2 的支持在 Athena 引擎版本 3 和支持的区域中可用。要了解更多关于 Athena 中新增的 Apache Hudi 0.12.2 支持的信息,请参阅 Athena 用户文档中的查询 Hudi 数据集