发布于: Nov 15, 2023

AWS Glue Data Catalog 现在支持自动压缩 Apache Iceberg 表,有助于交易数据湖始终保持高性能。在 Apache Iceberg 表上启用自动压缩可减少 Iceberg 表上的元数据开销并提高查询性能。 

Apache Iceberg 是一种开放表格式,可为数据湖中的大型表提供快速查询性能。Apache Iceberg 在 Amazon S3 上的元数据中跟踪表的数据文件。随着对表的更改越来越多,创建的数据文件也越来越多,查询的效率不断降低。为了提高性能和控制成本,组织必须创建自定义数据管道,用于定期压缩小文件。构建这些自定义管道既耗时又昂贵。此次发布可自动压缩 AWS Glue Data Catalog 上的 Apache Iceberg 表。启用后,AWS Glue Data Catalog 会持续监控新的数据写入,跟踪底层 Amazon S3 存储中的小文件,并在后台自动触发压缩任务,无需您输入任何其他信息。现在,您可以为 Iceberg 表获得始终优化的 Amazon S3 布局,从而获得更快的数据湖读取性能。

除了 AWS 管理控制台外,客户还可以使用 AWS CLI 或 AWS SDK 来自动启用 Apache Iceberg 表的压缩功能。有关更多详细信息,请访问此处

Iceberg 表的自动压缩功能在以下区域推出:亚太地区(东京)、美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)和欧洲地区(爱尔兰)。要了解更多信息,请阅读此博客,并访问 AWS Glue Data Catalog 文档