AWS Glue Data Catalog 为 Apache Iceberg 表提供了高级自动优化

发布于: 2024年12月19日

AWS Glue Data Catalog 现在可为 Apache Iceberg 表提供高级自动优化。此次更新包括支持压缩删除文件、嵌套数据类型、部分进度提交和分区演进支持,让您可以更轻松地维护性能始终如一的事务型数据湖。这些功能解决了客户在将流式数据持续摄取到 Apache Iceberg 表中时面临的挑战,因为执行此操作时会生成大量跟踪数据文件变化的删除文件。

借助这项新功能,Glue Data Catalog 可以持续监控表分区中是否存在位置删除文件和同等删除文件,启动压缩过程,并定期提交部分进度以减少冲突。现在,当您重新排序或重命名列时,Glue Catalog 优化器支持架构演变以及分区规格演变。此外,Glue Catalog 还扩展了对深度嵌套的复杂数据的支持以及对 parquet 压缩编解码器(zstd、brotli、lz4、gzip、snappy)的支持。启用自动压缩可减少 Iceberg 表上的删除文件和元数据开销,并提高查询性能。这些新功能会自动应用于现有和新的 Glue Catalog 优化器。

除了 AWS 管理控制台外,客户还可以使用 AWS CLI 或 AWS SDK 自动针对 Apache Iceberg 表进行优化。该功能已在 14 个 AWS 区域推出:美国东部(弗吉尼亚州北部、俄亥俄州)、美国西部(俄勒冈州)、欧洲地区(爱尔兰、伦敦、法兰克福、斯德哥尔摩)、加拿大(中部)、亚太地区(东京、首尔、孟买、新加坡、悉尼)、南美洲(圣保罗)。要了解更多信息,请阅读此博客,并访问 AWS Glue Data Catalog 文档