Publicado: Nov 22, 2022
Agora, os clientes do Amazon EMR podem usar o Catálogo de Dados do AWS Glue de fluxos de trabalho de SQL de streaming ou em lotes no Flink. O Catálogo de Dados do AWS Glue é um catálogo compatível com o metastore do Apache Hive. Você pode configurar trabalhos do Flink no Amazon EMR para usar o Catálogo de Dados como um metastore externo do Apache Hive. Com este lançamento, você pode executar diretamente consultas SQL do Flink em tabelas armazenadas no Catálogo de Dados.
O Flink oferece suporte ao metastore do Hive no cluster como um catálogo persistente pronto para uso. Isso significa que era necessário recriar metadados quando os clusters eram encerrados. Além disso, era difícil compartilhar as mesmas informações de metadados entre vários clusters. A partir do Amazon EMR 6.9, trabalhos do Flink no Amazon EMR podem gerenciar metadados do Flink no Catálogo de Dados do AWS Glue. Você pode usar um Catálogo de Dados do Glue persistente e totalmente gerenciado como um repositório centralizado. Cada Catálogo de Dados é uma coleção de tabelas altamente escalável, organizada em bancos de dados.
O Catálogo de Dados do AWS Glue oferece um repositório uniforme no qual sistemas heterogêneos podem armazenar e encontrar metadados para rastrear dados em silos de dados. Você pode consultar os metadados e transformá-los de forma consistente em uma grande variedade de aplicações. Com o suporte ao Catálogo de Dados do AWS Glue, você pode usar o Apache Flink no Amazon EMR para o processamento BATCH e STREAM unificado de tabelas do Apache Hive ou metadados de qualquer tablesource do Flink, como Iceberg, Kinesis ou Kafka. É possível especificar o Catálogo de Dados do AWS Glue como metastore do Flink usando o Console de Gerenciamento da AWS, a AWS CLI, ou a API do Amazon EMR.
Você pode usar esse recurso em todas as regiões nas quais o Amazon EMR está disponível. Para saber mais sobre esse recurso, consulte a documentação.