发布于: Nov 15, 2019

Amazon EMR 版本 5.28.0 现已支持 Apache Hudi(孵化版)。使用 Amazon EMR 进行数据管道开发和数据处理的数据工程师,现在可以使用 Apache Hudi 来简化需要进行记录别别插入、更新和删除操作的增量数据管理和数据隐私使用案例。借助 Apache Hudi 可让基于 Amazon S3 的数据湖遵从数据隐私保护法律的要求,使用实时数据流和更改数据捕获日志,恢复延迟到达的数据,跟踪更改历史记以及进行回滚等。Apache Hudi 是一个开源项目,支持以供应商中性的开源格式(例如 Apache Parquet 和 Apache Avro)在 Amazon S3 上存储数据。

Apache Hudi 是一种开源数据管理框架,用于简化增量数据处理和数据管道开发工作。借助 Apache Hudi,您可以在 Amazon S3 中管理记录级别的数据,从而简化更改数据捕获 (CDC) 和流式数据摄入操作,为处理需要记录级别更新和删除的数据隐私使用案例提供了框架。Apache Hudi 管理的数据集将使用开放存储格式存储在 S3 中,并且通过与 Presto、Apache Hive、Apache Spark 和 AWS Glue 数据目录集成,让您可以使用熟悉的工具几乎实时访问更新的数据。

Apache Hudi 受到 Amazon EMR 的原生支持,如果您在部署 EMR 集群时选择了 Apache Spark、Hive 或 Presto,它将会自动安装。使用 Apache Hudi,您可以创建专为读取密集型或写入密集型使用案例优化的数据集, Apache Hudi 将使用 Apache Parquet 来管理存储在 S3 上的底层数据,并使用 Apache Avro 来进行数据存储。

包含 Apache Hudi 的 Amazon EMR 版本 5.28.0 现已在美国东部(弗吉尼亚北部和俄亥俄)、美国西部(俄勒冈)、南美洲(圣保罗)、欧洲(爱尔兰和斯德哥尔摩)、AWS GovCloud(美国东部和美国西部)以及光环新网运营的 AWS(北京)区域推出,未来几周将在更多区域推出。

您可以订阅 EMR 发行说明的源,以了解有关 Amazon EMR 版本的最新信息。请使用 EMR 版本指南顶部的图标,将源 URL 直接链接至您最喜欢的源阅读器。

要更深入了解如何将 Apache Hudi 与 EMR 结合使用,请参加相关 re:Invent 会议和研讨会。