发布于: Jun 8, 2023

Amazon Athena for Apache Spark 现已支持三种开源数据湖存储框架:Apache Hudi 0.13、Apache Iceberg 1.2.1 和 Linux Foundation Delta Lake 2.0.2。这些框架使用 ACID(原子性、一致性、隔离性、持久性)事务简化了大型数据集的增量数据处理,还简化了在数据湖中存储和处理大型数据集的过程。

Amazon Athena for Apache Spark 是 Amazon Athena 的一项功能,它可让您在不到一秒钟的时间内在 Apache Spark 上运行交互式分析,从而分析 PB 级数据。随着数据湖规模的扩大,向数据湖添加增量数据并保持所有数据用户的数据事务一致性可能会变得很困难。这些数据湖框架使用 ACID 事务、更新插入和删除功能简化了 S3 数据湖中的增量数据处理,以创建事务一致的文件。通过今天的发布,数据工程师现在可以使用模式演变等功能高效地创建和管理数据湖表。借助模式演变功能,您可以轻松地调整数据以适应业务变化,因为它可以更改现有数据表的数据结构,而无需重写现有数据以适应新结构。

Apache Iceberg、Apache Hudi 和 Delta Lake 支持已在提供 Amazon Athena for Apache Spark 的 9 个 AWS 区域推出:美国东部(俄亥俄州)、美国东部(弗吉尼亚州北部)、美国西部(俄勒冈州)、欧洲地区(爱尔兰)、欧洲地区(法兰克福)、亚太地区(东京)、亚太地区(新加坡)、亚太地区(悉尼)和亚太地区(孟买)。如需了解更多信息并开始使用该功能,请访问 Amazon Athena for Apache Spark 网页