发布于: Nov 15, 2023
AWS Glue Data Catalog 现在支持自动压缩 Apache Iceberg 表,有助于交易数据湖始终保持高性能。在 Apache Iceberg 表上启用自动压缩可减少 Iceberg 表上的元数据开销并提高查询性能。
Apache Iceberg 是一种开放表格式,可为数据湖中的大型表提供快速查询性能。Apache Iceberg 在 Amazon S3 上的元数据中跟踪表的数据文件。随着对表的更改越来越多,创建的数据文件也越来越多,查询的效率不断降低。为了提高性能和控制成本,组织必须创建自定义数据管道,用于定期压缩小文件。构建这些自定义管道既耗时又昂贵。此次发布可自动压缩 AWS Glue Data Catalog 上的 Apache Iceberg 表。启用后,AWS Glue Data Catalog 会持续监控新的数据写入,跟踪底层 Amazon S3 存储中的小文件,并在后台自动触发压缩任务,无需您输入任何其他信息。现在,您可以为 Iceberg 表获得始终优化的 Amazon S3 布局,从而获得更快的数据湖读取性能。
除了 AWS 管理控制台外,客户还可以使用 AWS CLI 或 AWS SDK 来自动启用 Apache Iceberg 表的压缩功能。有关更多详细信息,请访问此处。