Catálogo de Dados do AWS Glue já oferece suporte à otimização do armazenamento de tabelas do Apache Iceberg

Publicado: 12 de set de 2024

O Catálogo de Dados do AWS Glue agora oferece suporte à otimização do armazenamento de tabelas do Apache Iceberg removendo automaticamente os arquivos de dados que não são mais necessários. Cada gravação em uma tabela do Iceberg cria um novo snapshot, ou versão, de uma tabela. Além disso, qualquer falha durante a gravação em tabelas do Iceberg criará arquivos de dados que não são referenciados em snapshots, conhecidos como arquivos “órfãos”, o que aumenta ainda mais os custos de armazenamento. As novas otimizações de armazenamento do catálogo do AWS Glue, juntamente com a compactação automatizada, ajudarão você a reduzir a sobrecarga de metadados, controlar os custos de armazenamento e melhorar a performance das consultas.

Com esse lançamento, você pode ativar a otimização da tabela de catálogos do AWS Glue para incluir gerenciamento de snapshots e dados órfãos. Você pode otimizar o layout do Amazon S3 fornecendo configurações como período de retenção padrão e dias para manter arquivos órfãos. Uma vez ativado, o catálogo do AWS Glue monitora tabelas periodicamente, remove snapshots dos metadados da tabela, remove os arquivos de dados do Amazon S3 e os arquivos órfãos que não são mais necessários. Você pode visualizar o histórico do número de dados, manifestos, listas de manifestos, e arquivos órfãos excluídos da guia de otimização de tabelas no console do catálogo do Glue.

Além do console da AWS, os clientes também podem usar a CLI da AWS ou os SDKs da AWS para permitir a otimização de tabelas do Apache Iceberg. A otimização automática para tabelas do Iceberg está disponível em 13 regiões da AWS: Leste dos EUA (N. da Virgínia, Ohio), Oeste dos EUA (Oregon), Europa (Irlanda, Londres, Frankfurt, Estocolmo), Ásia-Pacífico (Tóquio, Seul, Mumbai, Singapura, Sydney) e América do Sul (São Paulo). Para saber mais, leia o blog e consulte a documentação do Catálogo de Dados do AWS Glue.