Publicado: Nov 20, 2023
Agora, o Amazon Redshift pode aproveitar as estatísticas no nível da coluna armazenadas no Catálogo de Dados do AWS Glue para melhorar a performance das consultas do data lake gerando planos de consulta otimizados.
O AWS Glue oferece suporte a estatísticas no nível da coluna no Catálogo de Dados do AWS Glue, que permite que os clientes armazenem informações estatísticas, como valores mínimos e máximos e número de valores distintos para cada coluna. Agora, o Amazon Redshift recupera automaticamente essas informações do AWS Glue, otimiza os planos de consulta usando estatísticas e fornece melhorias de performance para suas consultas de data lake. Com o recurso recentemente introduzido do AWS Glue de gerar estatísticas no nível da coluna, você pode coletar automaticamente informações estatísticas de suas tabelas de data lake e atualizar as estatísticas no nível da coluna em vez de preencher essas informações manualmente.
Para começar, você pode usar o Console do AWS Glue ou as APIs do AWS Glue para gerar estatísticas de colunas para suas tabelas de data lake e, em seguida, executar consultas nessas tabelas no Redshift usando o catálogo do Glue montado automaticamente ou esquemas externos.
As otimizações do plano de consulta de data lake do Amazon Redshift usando estatísticas em nível de coluna do AWS Glue estão disponíveis em todas as regiões da AWS que oferecem o Amazon Redshift Spectrum ou o Amazon Redshift sem servidor. Para saber mais, visite o Guia do desenvolvedor de banco de dados do Amazon Redshift e a documentação do AWS Glue.