Catálogo de Dados do AWS Glue já oferece suporte à geração programada de estatísticas no nível de coluna

Publicado: 13 de nov de 2024

Agora, o Catálogo de Dados do AWS Glue oferece suporte à geração programada de estatísticas no nível de coluna para tabelas e formatos de arquivo do Apache Iceberg, como Parquet, JSON, CSV, XML, ORC e ION. Com esse lançamento, você pode simplificar e automatizar a geração de estatísticas criando um cronograma recorrente no Catálogo de Dados do Glue. Agora, essas estatísticas estão integradas ao otimizador baseado em custos (CBO) do Amazon Redshift Spectrum e do Amazon Athena, resultando em melhor performance de consultas e possíveis reduções de custos.

Anteriormente, para configurar um cronograma de geração de estatísticas recorrentes, você precisava chamar os serviços da AWS usando uma combinação do AWS Lambda e do Agendador do Amazon EventBridge. Com esse novo recurso, você já pode fornecer a programação recorrente como uma configuração adicional para o Catálogo de Dados do Glue junto com a porcentagem de amostragem. Para cada execução agendada, é coletado o número de valores distintos (NDVs) para as tabelas do Apache Iceberg. Estatísticas adicionais, como o número de nulos e tamanho máximo, mínimo e médio, são coletadas para outros formatos de arquivo. Conforme as estatísticas são atualizadas, são usadas pelo Amazon Redshift e Amazon Athena para otimizar consultas por meio de otimizações como a ordem de associação ideal ou o deslocamento da agregação com base em custos. Você tem visibilidade do status e do momento da execução de cada geração de estatísticas, bem como dos valores atualizados das estatísticas.

Para começar a usar, você pode programar a geração de estatísticas usando o console do Catálogo de Dados ou as APIs do AWS Glue. O suporte à geração programada de estatísticas do Catálogo do AWS Glue está disponível ao público em geral em todas as regiões que oferecem o Agendador do Amazon EventBridge. Acesse a documentação do Catálogo do AWS Glue para saber mais.