Publicado en: May 9, 2023
Ahora puede utilizar Amazon Athena para consultar tablas creadas con Apache Hudi 0.12.2, que incluye la compatibilidad para mejorar la escalabilidad de las consultas que acceden a los conjuntos de datos del lago de datos de Amazon S3. La integración actualizada le permite utilizar Athena para consultar las tablas de Hudi 0.12.2 gestionadas mediante Amazon EMR, Apache Spark, Apache Hive u otros servicios compatibles.
Apache Hudi es un marco de administración de datos de código abierto que se utiliza para simplificar el procesamiento de datos incrementales en lagos de datos de S3. Hudi le permite procesar datos a nivel de registro; gracias a ello, puede simplificar el desarrollo de canalizaciones para captura de modificaciones de datos (CDC), cumplir con las actualizaciones y eliminaciones basadas en el RGPD y administrar de forma más cómoda los datos de transmisiones desde sensores o dispositivos que requieren inserción de datos y actualizaciones de eventos. La versión 0.12.2 incluye soporte para tablas de metadatos, que están diseñadas para eliminar el requisito de la operación de «enumerar archivos» a fin de permitir mejor un escalado eficiente en conjuntos de datos más grandes. En cambio, la tabla de metadatos mantendrá la lista de archivos de forma proactiva y eliminará la necesidad de realizar operaciones de enumeración de archivos recursivas para evitar límites de solicitudes en el caso de sistemas de almacenamiento como Amazon S3.
La compatibilidad con Apache Hudi 0.12.2 está disponible en la versión 3 del motor Athena y en las regiones compatibles. Para obtener más información sobre la nueva compatibilidad con Apache Hudi 0.12.2 en Athena, vea Consultar conjuntos de datos de Hudi en la documentación de usuario de Athena.