Publicado: Apr 24, 2023

Os crawlers do AWS Glue extraem o esquema e as partições de dados do Amazon S3 e preenchem o Catálogo de Dados do AWS Glue, mantendo os metadados atualizados. Hoje, o suporte do crawler do AWS Glue foi ampliado para adicionar automaticamente índices de partições para tabelas recém-descobertas. O novo recurso ajuda serviços de análise, como Amazon Athena e AWS Glue, a otimizar o processamento de partições, otimizando a performance de consultas em tabelas altamente particionadas. 

O número de partições em uma determinada tabela pode aumentar significativamente com o tempo. Conforme serviços de análise como o Amazon Athena consultam uma tabela contendo milhões de partições, o tempo necessário para recuperar uma partição aumenta e o mesmo pode ocorrer com o runtime da consulta. Com esta versão, quando o crawler do AWS Glue cria uma nova tabela do Catálogo de Dados do AWS Glue, cria também por padrão um índice de partições, eliminando a necessidade de criá-lo manualmente. Em seguida, o Catálogo de Dados do AWS Glue cria um índice rápido e pesquisável com base nas chaves do índice de partições, reduzindo o tempo necessário para recuperar e filtrar metadados de partições em tabelas com milhões de partições. A criação de índices de partições beneficia as workloads de análise executadas no Amazon Athena, Amazon EMR, Amazon Redshift Spectrum e AWS Glue.

O suporte do crawler do AWS Glue para a criação de índices de partição está disponível em todas as regiões comerciais nas quais o AWS Glue é oferecido. Acesse a documentação do crawler do AWS Glue para saber mais.