Publicado: Jul 21, 2023

Agora, os crawlers do AWS Glue são compatíveis com tabelas do Hudi, permitindo que os clientes consultem dados dessas tabelas diretamente dos serviços de análise da AWS, como o Amazon Athena. O Apache Hudi é um formato de tabela de código aberto que traz recursos de banco de dados e data warehouse para data lakes. O Apache Hudi ajuda os engenheiros de dados a gerenciar conjuntos de dados em constante evolução, mantendo a performance das consultas. 

Anteriormente, para consultar dados de tabelas do Apache Hudi, os usuários do Amazon Athena precisavam criar manualmente uma tabela no Catálogo de Dados do Glue e atualizar as alterações nas partições para garantir que as consultas usassem os dados mais atuais para gerar os resultados. Com o lançamento de hoje, os usuários podem registrar automaticamente as tabelas do Apache Hudi no Catálogo do Glue executando o crawler do Glue. O crawler do Glue somente oferece suporte a tabelas Hudi dos tipos Copy on Write (CoW – Copiar na gravação) e Merge on Read (MoR – Mesclar na leitura), particionadas ou não. Os usuários podem então consultar as tabelas Hudi no Catálogo do Glue em vários serviços de análises e aplicar permissões detalhadas do Lake Formation. Com os crawlers do Glue, os usuários também podem migrar dados de outros catálogos do Hudi para o Catálogo do Glue. 

Para começar a usar, os usuários precisam criar, executar ou programar um crawler do Glue e fornecer um ou mais caminhos do Amazon S3 para as tabelas Hudi. A cada execução, o crawler do Glue extrai o esquema e as informações de partição, e atualiza o Catálogo do Glue com o esquema, as alterações de partição e a localização mais recente do arquivo de metadados do Hudi.

O suporte ao crawler do AWS Glue para tabelas nativas do Hudi está disponível em todas as regiões comerciais em que o AWS Glue é oferecido. Consulte a tabela de regiões da AWS. Para saber mais, acesse a documentação do crawler do AWS Glue.