发布于: Nov 28, 2022

适用于 Apache Spark 的 AWS Glue 现在支持三种开源数据湖存储框架:Apache Hudi、Apache Iceberg 和 Linux Foundation Delta Lake。借助这三种框架,您可以以事务一致的方式在 Amazon Simple Storage Service (Amazon S3) 中读取和写入数据。AWS Glue 是一项无服务器、可扩展的数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据的工作。使用此功能,无需安装单独的连接器,同时可减少在适用于 Apache Spark 的 AWS Glue 作业中使用这些框架所需的配置步骤。

这些开源数据湖框架简化了基于 AmazonS3 构建的数据湖中的增量数据处理。它们支持包括时间旅行查询、ACID(原子性、一致性、隔离和持久性)事务、流式摄取、更改数据捕获 (CDC)、更新插入和删除在内的一系列功能。

要了解更多信息,请访问我们的文档

已推出 AWS Glue 的所有商业 AWS 区域均提供这一功能。