Publicado en: Nov 22, 2022

Los clientes de Amazon EMR ahora pueden utilizar el catálogo de datos de AWS Glue de sus flujos de trabajo de SQL de lote y de streaming en Flink. El catálogo de datos de AWS Glue es un catálogo compatible con la tienda de metadatos de Apache Hive. Puede configurar sus trabajos de Flink en Amazon EMR de modo tal que el catálogo de datos se utilice como una tienda de metadatos de Apache Hive externa. Con este lanzamiento, puede ejecutar directamente las consultas de SQL de Flink sobre las tablas almacenadas en el catálogo de datos.

 Flink admite la tienda de metadatos de Hive en el clúster como catálogo permanente listo para su uso. Esto significa que los metadatos debían volver a crearse cuando los clústeres se desactivaban, por lo que era difícil que varios clústeres compartieran la misma información de los metadatos. A partir de la versión 6.9 de Amazon EMR, los trabajos de Flink de Amazon EMR pueden administrar los metadatos de Flink en el catálogo de datos de AWS Glue. Puede utilizar un catálogo de datos de Glue permanente y completamente administrado como repositorio centralizado. Cada catálogo de datos es una colección de tablas muy escalable que está organizada en bases datos. 

El catálogo de datos de AWS Glue brinda un repositorio uniforme donde diversos sistemas pueden almacenar y encontrar metadatos para realizar un seguimiento de los datos en silos de datos. Luego, podrá consultar los metadatos y transformarlos de manera coherente en una gran variedad de aplicaciones. Gracias a la compatibilidad con el catálogo de datos de AWS Glue, puede utilizar Apache Flink en Amazon EMR para el procesamiento unificado de lote y streaming de las tablas de Apache Hive o los metadatos de cualquier origen de tablas de Flink, como Iceberg, Kinesis o Kafka. Puede especificar el catálogo de datos de AWS Glue como tienda de metadatos para Flink por medio de la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR.

Puede utilizar esta función en todas las regiones donde esté disponible Amazon EMR. Para obtener más información sobre esta característica, consulte nuestra documentación.