El Catálogo de datos de AWS Glue ofrece una optimización automática avanzada para las tablas de Apache Iceberg
El Catálogo de datos de AWS Glue ahora ofrece una optimización automática avanzada para las tablas de Apache Iceberg. Esta actualización admite la compactación de archivos eliminados, los tipos de datos anidados, las confirmaciones de progreso parcial y la compatibilidad con la evolución de particiones. Esto facilita el mantenimiento de lagos de datos transaccionales con un rendimiento uniforme. Estas características abordan los desafíos a los que se enfrentan los clientes cuando los datos de streaming se ingieren continuamente en tablas de Apache Iceberg. El resultado es una gran cantidad de archivos eliminados que rastrean los cambios en los archivos de datos.
Con esta nueva capacidad, el Catálogo de datos de Glue monitorea constantemente las particiones de las tablas para detectar archivos de eliminación por posición e igualdad, inicia el proceso de compactación y confirma periódicamente el progreso parcial para reducir los conflictos. Los optimizadores del Catálogo de Glue ahora admiten la evolución del esquema al reordenar o cambiar el nombre de las columnas, así como la evolución de las especificaciones de las particiones. Además, el Catálogo de Glue ha ampliado la compatibilidad con datos complejos altamente anidados y la compatibilidad con los códecs de compresión de parquet: zstd, brotli, lz4, gzip y snappy. Al habilitar la compactación automática, se reduce la sobrecarga de la eliminación de archivos y metadatos en las tablas de Iceberg y se mejora el rendimiento de las consultas. Estas nuevas características se aplican automáticamente a los optimizadores del Catálogo de Glue existentes y nuevos.
Además de la consola de AWS, los clientes también pueden usar la CLI o los SDK de AWS para automatizar la optimización de las tablas de Apache Iceberg. La característica está disponible en 14 regiones de AWS: Este de EE. UU. (Norte de Virginia, Ohio), Oeste de EE. UU. (Oregón), Europa (Irlanda, Londres, Fráncfort, Estocolmo), Canadá (centro), Asia-Pacífico (Tokio, Seúl, Bombay, Singapur, Sídney) y América del Sur (São Paulo). Para obtener más información, lea el blog y visite la documentación del Catálogo de datos de AWS Glue.