Catálogo de Dados do AWS Glue agora automatiza a geração de estatísticas para novas tabelas

Publicado: 3 de dez de 2024

O Catálogo de Dados do AWS Glue agora automatiza a geração de estatísticas para novas tabelas. Agora, essas estatísticas estão integradas ao otimizador baseado em custos (CBO) do Amazon Redshift e do Amazon Athena, resultando em melhor performance de consultas e possíveis reduções de custos.

As estatísticas de tabela são usadas por um mecanismo de consulta, como o Amazon Redshift e o Amazon Athena, para determinar a maneira mais eficiente de executar uma consulta. Anteriormente, a criação de estatísticas para tabelas do Apache Iceberg no Catálogo de Dados do AWS Glue exigia que você monitorasse e atualizasse continuamente as configurações de suas tabelas. Agora, o Catálogo de Dados do AWS Glue permite gerar estatísticas automaticamente para novas tabelas com uma configuração única de catálogo. Você pode começar selecionando o catálogo padrão no console do Lake Formation e ativando as estatísticas da tabela na guia de configuração de otimização da tabela. À medida que novas tabelas são criadas ou as tabelas existentes são atualizadas, as estatísticas são geradas usando uma amostra de linhas para todas as colunas e serão atualizadas periodicamente. Para as tabelas do Apache Iceberg, essas estatísticas incluem o número de valores distintos (NDVs). Para outros formatos de arquivo, como Parquet, estatísticas adicionais são coletadas, como o número de nulos, os valores máximos e mínimos e o comprimento médio. O Amazon Redshift e o Amazon Athena usam as estatísticas atualizadas para otimizar consultas por meio de otimizações como a ordem de associação ideal ou o deslocamento da agregação com base em custos. O console do Catálogo do Glue fornece visibilidade das estatísticas atualizadas e das execuções de geração de estatísticas.

O suporte para automatizar as estatísticas do Catálogo do AWS Glue está disponível nas seguintes regiões da AWS: Leste dos EUA (Norte da Virgínia, Ohio), Oeste dos EUA (N. da Califórnia, Oregon), Europa (Irlanda) e Ásia-Pacífico (Tóquio). Leia a publicação no blog e acesse a documentação do Catálogo do AWS Glue para saber mais.