Catálogo de Dados do AWS Glue já oferece suporte à geração de estatísticas para tabelas do Apache Iceberg

Publicado: 9 de jul de 2024

O Catálogo de Dados do AWS Glue agora oferece suporte à geração de estatísticas agregadas em nível de coluna para tabelas do Apache Iceberg. Essas estatísticas agora estão integradas ao otimizador baseado em custos (CBO) do Amazon Redshift Spectrum, resultando em melhor performance de consultas e possíveis economias.

O Apache Iceberg oferece suporte a estatísticas como nulls, min, max, mas não tem suporte para gerar estatísticas de agregação, como número de valores distintos (NDV). Com esse lançamento, agora você tem uma experiência integrada de ponta a ponta, na qual os NDVs são coletados em colunas da tabela do Apache Iceberg e armazenados nos arquivos do Apache Iceberg Puffin. O Amazon Redshift usa essas estatísticas de agregação para otimizar as consultas aplicando os filtros mais restritivos o mais cedo possível no processamento da consulta, limitando assim o uso da memória e o número de registros lidos para fornecer os resultados da consulta.

Para começar a usá-lo, você pode gerar estatísticas para uma tabela do Apache Iceberg usando o console do AWS Glue ou as APIs do AWS Glue. A cada execução, o Glue Catalog calculará as estatísticas do snapshot atual da tabela do Iceberg, armazenadas em um arquivo do Iceberg Puffin e no Glue Catalog. Ao executar consultas do Amazon Redshift Spectrum, você obterá automaticamente as melhorias na performance da consulta com a integração integrada com o Apache Iceberg.

O suporte para gerar estatísticas do Catálogo do AWS Glue está disponível nas seguintes regiões da AWS: Leste dos EUA (Ohio), Oeste dos EUA (N. da Califórnia), Europa (Frankfurt) e Ásia-Pacífico (Mumbai). Leia a publicação no blog e acesse a documentação do Catálogo do AWS Glue para saber mais.