El catálogo de datos de AWS Glue ahora admite la optimización del almacenamiento de las tablas de Apache Iceberg
El Catálogo de datos de AWS Glue ahora admite la optimización del almacenamiento de las tablas de Apache Iceberg al eliminar automáticamente los archivos de datos que ya no se necesitan. Cada escritura en una tabla Iceberg crea una nueva instantánea o versión de una tabla. Además, cualquier error durante la escritura en las tablas Iceberg creará archivos de datos a los que no se hace referencia en las instantáneas, conocidos como archivos “huérfanos”, lo que aumenta aún más los costos de almacenamiento. Las nuevas optimizaciones de almacenamiento del catálogo de AWS Glue, junto con la compactación automatizada, lo ayudarán a reducir la sobrecarga de metadatos, controlar los costos de almacenamiento y mejorar el rendimiento de las consultas.
Con este lanzamiento, puede habilitar la optimización de las tablas del catálogo de AWS Glue para incluir la administración de instantáneas y datos huérfanos. Puede optimizar el diseño de Amazon S3 proporcionando una configuración como el período de retención predeterminado y los días para conservar los archivos huérfanos. Una vez habilitado, el catálogo de AWS Glue monitoriza periódicamente las tablas, elimina las instantáneas de los metadatos de las tablas, elimina los archivos de datos de Amazon S3 y los archivos huérfanos que ya no se necesitan. Puede ver el historial de la cantidad de datos, manifiestos, listas de manifiestos y archivos huérfanos eliminados en la pestaña de optimización de tablas de la consola de catálogo de Glue.
Además de la consola de AWS, los clientes también pueden usar la CLI de AWS o los SDK de AWS para habilitar la optimización de tablas de Apache Iceberg. La optimización automática de las tablas Iceberg está disponible en 13 regiones de AWS: Este de EE. UU. (Norte de Virginia, Ohio), Oeste de EE. UU. (Oregón), Europa (Irlanda, Londres, Fráncfort, Estocolmo), Asia Pacífico (Tokio, Seúl, Bombay, Singapur, Sídney) y América del Sur (São Paulo). Para obtener más información, lea el blog y visite la documentación del catálogo de datos de AWS Glue.