Amazon S3 ahora admite la compactación de los formatos Apache Avro y ORC para tablas de Apache Iceberg

Publicado en: 15 de jul de 2025

Amazon S3 ha ampliado la compatibilidad de compactación para incluir los formatos Apache Avro y ORC para las tablas de Apache Iceberg. Esto complementa las capacidades de formato Parquet existentes. Esta mejora funciona tanto en las tablas de S3 como en los buckets de S3 de uso general mediante la optimización del catálogo de datos de AWS Glue.

Si bien Parquet es el formato predeterminado para las tablas de Iceberg, también puede escribir datos en formatos Avro u ORC para cargas de trabajo específicas. Por ejemplo, puede usar Avro para mejorar el rendimiento de escritura en casos prácticos de ingesta de datos y streaming, como las transacciones de compras diarias, la transmisión de datos de sensores o la recopilación de impresiones publicitarias. Las tablas de S3 compactan automáticamente los archivos pequeños en archivos más grandes para minimizar los datos escaneados, mejorar el rendimiento de las consultas y reducir los costos. De forma predeterminada, la compactación convierte los archivos Avro y ORC en Parquet para un ofrecer rendimiento de lectura óptimo, pero puede especificar el formato de destino preferido en las propiedades de la tabla.

La compatibilidad con la compactación para los formatos Apache Avro y ORC ya está disponible en todas las regiones de AWS en las que están disponibles las tablas de S3 o la optimización con el catálogo de datos de AWS Glue. Para obtener más información, consulte la documentación de mantenimiento de tablas de S3. Para conocer sobre la optimización de buckets de uso general, consulte la documentación sobre la optimización del catálogo de datos de AWS Glue.