Publicado en: Oct 31, 2022

La versión 6.8 de Amazon EMR ahora es compatible con Apache Hudi 0.11.1 y Apache Iceberg 0.14.0. Puede usar estos marcos en Amazon EMR en EC2 y Amazon EMR en EKS, así como en Amazon EMR sin servidor.

Apache Hudi 0.11.1 en Amazon EMR 6.8 incluye compatibilidad con Spark 3.3.0, agrega compatibilidad con índices multimodales y omisión de datos con tabla de metadatos que permite agregar índices de estadísticas de columna y filtros bloom a tablas, lo que pueden mejorar significativamente el rendimiento de las consultas. También, agrega un servicio de Async Indexer que permite a los usuarios crear diferentes tipos de índices (por ejemplo, archivos, filtros bloom y estadísticas de columna) en la tabla de metadatos sin bloquear la ingestión. Incluye mejoras de Spark SQL que agregan compatibilidad para actualizar o eliminar registros en tablas de Hudi usando campos clave no principales y consultas de viaje en el tiempo a través de la marca de tiempo a partir de la sintaxis. Además, incluye mejoras de integración de Flink con las versiones 1.13.x y 1.14.x de este servicio, y con tipos de datos complejos como Map y Array, etc. Además, Hudi 0.11.1 incluye correcciones de errores en Hudi 0.11.0 disponibles en la versión 6.7 de Amazon EMR. Para obtener más detalles, consulte los documentos de las versiones de OSS Hudi.

Apache Iceberg 0.14.0 en Amazon EMR 6.8 incluye compatibilidad con Spark 3.3.0, agrega compatibilidad con Merge-on-read para instrucciones MERGE y UPDATE, agrega compatibilidad para reescribir particiones con el orden Z, lo que permite reorganizar las particiones para que sean eficientes con predicados de consultas en varias columnas y también para mantener juntos datos similares. Incluye varias mejoras de rendimiento para la planificación de escaneo en consultas de Spark, agrega compatibilidad con la omisión de grupos de filas con filtros bloom de Parquet, etc. Para obtener más detalles, consulte los documentos de las versiones de OSS Iceberg.

La versión 6.8 de Amazon EMR está disponible de manera general en todas las regiones en las que Amazon EMR está disponible. Consulte Disponibilidad regional de Amazon EMR y las notas de la versión para obtener más información.