AWS Glue Data Catalog 为 Apache Iceberg 表提供了高级自动优化

发布于: 2024年12月19日

AWS Glue Data Catalog 现在可为 Apache Iceberg 表提供高级自动优化。此次更新包括支持压缩删除文件、嵌套数据类型、部分进度提交和分区演进支持，让您可以更轻松地维护性能始终如一的事务型数据湖。这些功能解决了客户在将流式数据持续摄取到 Apache Iceberg 表中时面临的挑战，因为执行此操作时会生成大量跟踪数据文件变化的删除文件。

借助这项新功能，Glue Data Catalog 可以持续监控表分区中是否存在位置删除文件和同等删除文件，启动压缩过程，并定期提交部分进度以减少冲突。现在，当您重新排序或重命名列时，Glue Catalog 优化器支持架构演变以及分区规格演变。此外，Glue Catalog 还扩展了对深度嵌套的复杂数据的支持以及对 parquet 压缩编解码器（zstd、brotli、lz4、gzip、snappy）的支持。启用自动压缩可减少 Iceberg 表上的删除文件和元数据开销，并提高查询性能。这些新功能会自动应用于现有和新的 Glue Catalog 优化器。

除了 AWS 管理控制台外，客户还可以使用 AWS CLI 或 AWS SDK 自动针对 Apache Iceberg 表进行优化。该功能已在 14 个 AWS 区域推出：美国东部（弗吉尼亚州北部、俄亥俄州）、美国西部（俄勒冈州）、欧洲地区（爱尔兰、伦敦、法兰克福、斯德哥尔摩）、加拿大（中部）、亚太地区（东京、首尔、孟买、新加坡、悉尼）、南美洲（圣保罗）。要了解更多信息，请阅读此博客，并访问 AWS Glue Data Catalog 文档。

选择您的 Cookie 首选项

AWS Glue Data Catalog 为 Apache Iceberg 表提供了高级自动优化

终止对 Internet Explorer 的支持