AWS anuncia la compatibilidad con los vectores de eliminación y el linaje de filas de Apache Iceberg V3
AWS ahora admite los vectores de eliminación y el linaje de filas tal como se define en la especificación Apache Iceberg versión 3 (V3). Estas nuevas características están disponibles con Apache Spark en Amazon EMR 7.12, AWS Glue, los cuadernos de Amazon SageMaker, las tablas de Amazon S3 y el catálogo de datos de AWS Glue.
Estas capacidades de Iceberg V3 ayudan a los clientes a crear lagos de datos a escala de petabytes con un rendimiento mejorado para las modificaciones de datos y una funcionalidad para rastrear fácilmente los registros modificados. Los vectores de eliminación escriben archivos de eliminación optimizados que aceleran las canalizaciones de datos y reducen los costos de compactación de datos. El linaje de filas proporciona campos de metadatos en cada registro para realizar un seguimiento de los cambios con una consulta SQL simple. Esto elimina el gasto computacional que implica encontrar cambios pequeños en tablas grandes.
Para empezar a crear tablas V3, se debe establecer la propiedad de la tabla en 'format-version = 3' en el comando CREATE TABLE de Spark o de un bloc de notas de SageMaker. Para actualizar las tablas existentes, basta con actualizar la propiedad de la tabla en los metadatos con la nueva versión de formato. Al hacerlo, los motores de consulta de AWS compatibles con la V3 comenzarán a utilizar automáticamente los vectores de eliminación y el linaje de filas.
Los vectores de eliminación y el linaje de filas de Iceberg V3 ya están disponibles en todas las regiones de AWS en las que se admite cada servicio o característica respectivo (Amazon EMR, AWS Glue, cuadernos de SageMaker, tablas de S3 y catálogo de datos de AWS Glue). Para obtener más información sobre la compatibilidad de AWS para Iceberg V3, visite Apache Iceberg V3 en AWS y lea la publicación del blog.