Publicado: Nov 17, 2023

O Catálogo de Dados do AWS Glue agora oferece suporte à geração de estatísticas em nível de coluna para tabelas do AWS Glue. Essas estatísticas agora estão integradas ao otimizador baseado em custos (CBO) do Amazon Athena e do Amazon Redshift Spectrum, resultando em melhor performance de consultas e possíveis economias de custos.

Com esse lançamento, os clientes agora têm uma experiência integrada de ponta a ponta, na qual as estatísticas das tabelas do Glue são coletadas e armazenadas no Catálogo do Glue e disponibilizadas aos serviços de análise para melhorar o planejamento e a execução de consultas. Essas estatísticas são em nível de coluna, como número de distintos, número de nulos, máximo e mínimo em arquivos como Parquet, ORC, JSON, ION, CSV, XML. Com estatísticas, serviços de análise, como Amazon Athena e Amazon Redshift, podem otimizar as consultas aplicando os filtros mais restritivos o mais cedo possível no processamento da consulta, limitando assim o uso da memória e o número de registros lidos para fornecer os resultados da consulta.

Para começar, os usuários podem gerar estatísticas e visualizar estatísticas para a tabela do Catálogo do AWS Glue usando o Console do AWS Glue ou as APIs do AWS Glue. À medida que os clientes executam consultas do Amazon Athena e do Amazon Redshift Spectrum, eles obterão automaticamente melhorias na performance da consulta com a integração integrada com o Catálogo do AWS Glue.

O suporte para gerar estatísticas do Catálogo do AWS Glue está disponível nas seguintes regiões da AWS: Leste dos EUA (N. da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Europa (Irlanda) e Ásia-Pacífico (Tóquio, Osaka). Leia a publicação no blog do Athena e acesse a documentação do Catálogo do AWS Glue para saber mais.