发布于: Jul 16, 2021
Amazon Athena 已更新其与 Apache Hudi 的集成,以支持新功能及最新的 0.8.0 社群版本。Hudi 是一种开源数据管理框架,用于简化 S3 数据湖中的递增数据处理和数据管道开发工作。更新后的集成使您能够使用 Athena 查询通过 Amazon EMR、Apache Spark、Apache Hive 或其他兼容服务管理的 Hudi 0.8.0 表,而且现在支持快照查询和读取引导表。
Apache Hudi 提供记录级数据处理,可帮助您简化变更数据捕获(CDC)管道的开发,遵守欧盟《一般数据保护条例(GDPR)》驱动的更新和删除,并更好地管理来自需要数据插入和事件更新的传感器或设备的串流数据。0.8.0 版本使您可以更轻松地将大型 Parquet 表迁移到Hudi(而无需复制数据),以便您可以通过 Athena 对其进行查询和分析。此外,借助 Athena 全新推出的对快照查询的支持,您现在可以近乎实时地查看串流表更新。
要了解有关 Athena 与 Hudi 集成的详情,请参阅使用 Athena 查询 Apache Hudi 数据集和使用 Amazon Athena 查询 Apache Hudi 数据集博客系列。