Publicado en: Jul 16, 2021

Amazon Athena ha actualizado su integración con Apache Hudi para admitir nuevas características y la última versión de la comunidad, la 0.8.0. Hudi es un marco de administración de datos de código abierto que se utiliza para simplificar el procesamiento de datos incrementales en lagos de datos de S3. La integración actualizada le permite utilizar Athena para consultar tablas de Hudi 0.8.0 administradas mediante Amazon EMR, Apache Spark, Apache Hive u otros servicios compatibles; asimismo, agrega una nueva compatibilidad con las consultas de instantáneas y la lectura de tablas de arranque.

Apache Hudi le permite procesar datos a nivel de registro; gracias a ello, puede simplificar el desarrollo de canalizaciones para captura de modificaciones de datos (CDC), cumplir con las actualizaciones y eliminaciones basadas en el RGPD y administrar de forma más cómoda los datos de transmisiones desde sensores o dispositivos que requieren inserción de datos y actualizaciones de eventos. La versión 0.8.0 facilita aún más la migración de grandes tablas de Parquet a Hudi sin copiar datos para que, así, pueda consultarlas y analizarlas a través de Athena. Además, gracias a la nueva compatibilidad de Athena con las consultas de instantáneas, ahora puede obtener vistas casi en tiempo real de las actualizaciones de la tabla de transmisiones.

Para obtener más información sobre la integración de Athena con Hudi, consulte Using Athena to Query Apache Hudi Dataset y la serie de blog Querying an Apache Hudi Dataset with Amazon Athena.