Publicado en: Nov 15, 2019

La versión 5.28.0 de Amazon EMR ya admite Apache Hudi (Incubating). Los ingenieros de datos que utilizan Amazon EMR para el desarrollo de la canalización y el procesamiento de datos pueden ahora utilizar Apache Hudi para simplificar la administración de datos incrementales y los casos de uso de privacidad de datos que requieren operaciones de inserción, actualización y eliminación a nivel de registro. Apache Hudi permite a los lagos de datos basados en Amazon S3 cumplir las leyes de privacidad de datos, consumir transmisiones en tiempo real y cambiar los registros de captura de datos, restablecer los datos que llegan tarde, y rastrear el historial de cambios y la restauración. Apache Hudi es de código abierto y admite el almacenamiento de datos en Amazon S3 en formatos de código abierto independientes del proveedor, como Apache Parquet y Apache Avro.

Apache Hudi es un marco de administración de datos de código abierto que se utiliza para simplificar el procesamiento de datos incrementales y el desarrollo de canalizaciones de datos. Apache Hudi permite administrar datos a nivel de registro en Amazon S3 para simplificar la captura de datos de cambio (CDC) y la incorporación de datos de streaming, además de proporcionar un marco para gestionar casos de uso de privacidad de datos que requieren actualizaciones y eliminaciones a nivel de registro. Los conjuntos de datos administrados por Apache Hudi se almacenan en S3 con formatos de almacenamiento abiertos, mientras que las integraciones con Presto, Apache Hive, Apache Spark y AWS Glue Data Catalog brindan acceso en tiempo casi real a datos actualizados mediante herramientas familiares.

Apache Hudi cuenta con soporte nativo en Amazon EMR, y se instala automáticamente cuando se elige Apache Spark, Hive o Presto a la hora de implementar un clúster de EMR. Apache Hudi permite crear conjuntos de datos optimizados para casos de uso con un uso intensivo de lectura o escritura; esta herramienta administrará los datos subyacentes almacenados en S3 mediante Apache Parquet y Apache Avro para el almacenamiento de datos.

La versión 5.28.0 de Amazon EMR con Apache Hudi ya está disponible en EE.UU. Este (Norte de Virginia y Ohio), EE.UU. Oeste (Oregón), América del Sur (São Paulo), Europa (Irlanda y Estocolmo), AWS GovCloud (EE.UU Este y EE.UU Oeste) y la región de China (Pekín) operada por Sinnet, pero se agregarán más regiones en las próximas semanas.

Para mantenerse informado acerca de las versiones de Amazon EMR, suscríbase a la fuente de notas de la versión de EMR. Use el icono ubicado en la parte superior de la Guía de versiones de EMR para enlazar el URL de la fuente directamente a su lector de fuentes favorito.

Para profundizar en el uso de Apache Hudi con EMR, asista a la sesión y al taller de re:Invent. 

Enlaces adicionales:
Blog de novedades de AWS: New - Insert, Update, Delete Data on S3 with Amazon EMR and Apache Hudi (Novedad: inserción, actualización y eliminación de datos en S3 con Amazon EMR y Apache Hudi)