Publicado: May 9, 2023

Agora, você pode usar o Amazon Athena para consultar tabelas criadas com o Apache Hudi 0.12.2, que oferece maior escalabilidade de consultas que acessam conjuntos de dados em data lakes do Amazon S3. A integração atualizada permite que você use o Athena para consultar tabelas do Hudi 0.12.2 gerenciadas via Amazon EMR, Apache Spark, Apache Hive ou outros serviços compatíveis.

O Apache Hudi é um framework de gerenciamento de dados de código aberto usado para simplificar o processamento incremental de dados em data lakes do S3. O Hudi fornece processamento de dados no nível de registros que pode ajudar a simplificar o desenvolvimento de pipelines de Change Data Capture (CDC – Captura de dados de alterações), manter a compatibilidade com atualizações e exclusões motivadas pelo RGPD e gerenciar melhor os dados de streaming de sensores ou dispositivos que exigem inserção de dados e atualizações de eventos. A versão 0.12.2 inclui suporte para tabelas de metadados, projetadas para eliminar a necessidade da operação “listar arquivos” a fim de apoiar melhor ajustes de escala eficientes para conjuntos de dados maiores. Em vez disso, a tabela de metadados manterá proativamente a lista de arquivos e eliminará a necessidade de operações recursivas de listagem de arquivos para evitar exceder limites de solicitações no caso de sistemas de armazenamento como o Amazon S3.

O suporte ao Apache Hudi 0.12.2 é oferecido na versão 3 do mecanismo do Athena e está disponível nas regiões com suporte. Para saber mais sobre o novo suporte do Athena ao Apache Hudi 0.12.2, veja Consultar conjuntos de dados do Hudi na documentação do usuário do Athena.