Publicado: Jul 16, 2021
O Amazon Athena atualizou sua integração com o Apache Hudi para oferecer suporte a novos recursos e à versão mais recente da comunidade 0.8.0. O Hudi é um framework de gerenciamento de dados de código aberto usado para simplificar o processamento incremental de dados em data lakes do S3. A integração atualizada permite que você use o Athena para consultar tabelas Hudi 0.8.0 gerenciadas via Amazon EMR, Apache Spark, Apache Hive ou outros serviços compatíveis e inclui novo suporte para consultas de snapshot e leitura de tabelas em bootstrap.
O Apache Hudi fornece processamento de dados em nível de registro que pode ajudar você a simplificar o desenvolvimento de pipelines de Captura de dados de alterações (CDC), manter a compatibilidade com atualizações e exclusões orientadas pelo RGPD e gerenciar melhor os dados de streaming de sensores ou dispositivos que exigem inserção de dados e atualizações de eventos. A versão 0.8.0 facilita ainda mais a migração de grandes tabelas Parquet para o Hudi sem copiar dados, para que você possa consultá-los e analisá-los por meio do Athena. Além disso, com o novo suporte do Athena para consultas de snapshot, agora você pode ter exibições quase em tempo real das suas atualizações dea tabelas de streaming.
Para saber mais sobre a integração do Athena com o Hudi, consulte Using Athena to Query Apache Hudi Dataset (Usar o Athena para consultar o conjunto de dados Apache Hudi) e a série de blogs Querying an Apache Hudi Dataset with Amazon Athena (Consultar um conjunto de dados Apache Hudi com o Amazon Athena).