Publicado en: Nov 15, 2023

El catálogo de datos de AWS Glue ahora admite la compactación automática de las tablas de Apache Iceberg, lo que le facilita que sus lagos de datos transacciones siempre tengan un rendimiento continuo. Al habilitar la compactación automática en las tablas de Apache Iceberg, se reduce la sobrecarga de metadatos en las tablas de Iceberg y se mejora el rendimiento de las consultas. 

Apache Iceberg es un formato de tabla abierta que ofrece un rendimiento rápido de consultas en tablas grandes en lagos de datos. Apache Iceberg hace un seguimiento de los archivos de datos de una tabla en sus metadatos en Amazon S3. A medida que se realizan más cambios en la tabla, se crean más archivos de datos y las consultas pueden perder eficacia. Para mejorar el rendimiento y controlar los costos, las organizaciones tenían que crear canalizaciones de datos personalizadas que compactaran periódicamente archivos pequeños. La creación de estas canalizaciones personalizadas lleva mucho tiempo y es costosa. Este lanzamiento ofrece la compactación automática de las tablas de Apache Iceberg en el Catálogo de datos de AWS Glue. Una vez habilitado, el catálogo de datos de AWS Glue monitorea continuamente las nuevas escrituras de datos, hace un seguimiento de los archivos pequeños en el almacenamiento subyacente de Amazon S3 y activa automáticamente los trabajos de compactación en segundo plano sin que usted realice ningún aporte adicional. Ahora puede obtener un diseño de Amazon S3 siempre optimizado para sus tablas de Iceberg. Esto se traduce en un rendimiento de lectura más rápido en los lagos de datos.

Además de la consola de AWS, los clientes también pueden utilizar AWS CLI o los AWS SDK para automatizar que se active la compactación de las tablas de Apache Iceberg. Para obtener más información, haga clic aquí.

La compactación automática para mesas Iceberg está disponible en Asia-Pacífico (Tokio), Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón) y Europa (Irlanda). Para obtener más información, lea el blog y visite la documentación del catálogo de datos de AWS Glue.