Amazon S3 现在支持 Apache Iceberg 表的 Apache Avro 和 ORC 格式压缩
发布于:
2025年7月15日
Amazon S3 扩展了压缩支持,将 Apache Iceberg 表的 Apache Avro 和 ORC 格式包括在内,这是对现有的 Parquet 格式功能的补充。此增强功能不仅适用于 S3 表类数据存储服务,也适用于使用 AWS Glue Data Catalog 优化的通用 S3 存储桶。
虽然 Parquet 是 Iceberg 表格的默认格式,但您也可以针对特定工作负载以 Avro 或 ORC 格式写入数据。例如,您可以使用 Avro 来提高数据摄取和流式传输使用案例(例如每日购买交易、流式传输传感器数据或收集广告曝光量)的写入性能。S3 表类数据存储服务会自动将小文件压缩成较大的文件,以最大限度地减少扫描数据、提高查询性能并降低成本。默认情况下,压缩会将 Avro 和 ORC 文件转换为 Parquet 格式,以实现最佳读取性能,但您可以在表属性中指定首选目标格式。
对 Apache Avro 和 ORC 格式的压缩支持现已在所有提供 S3 表类数据存储服务或通过 AWS Glue Data Catalog 进行优化的 AWS 区域全面推出。要了解有关 S3 表类数据存储服务压缩的更多信息,请参阅 S3 表类数据存储服务维护文档。有关通用存储桶优化,请参阅 AWS Glue Data Catalog 优化文档。