Publicado: Nov 15, 2023

Agora, o Catálogo de Dados do AWS Glue oferece suporte à compactação automática de tabelas do Apache Iceberg, facilitando a manutenção da performance de data lakes transacionais. Habilitar a compactação automática nas tabelas do Apache Iceberg reduz a sobrecarga de metadados das tabelas do Iceberg e melhora a performance da consulta. 

O Apache Iceberg é um formato de tabela aberto que fornece performance rápida de consultas em tabelas grandes em data lakes. O Apache Iceberg rastreia arquivos de dados de uma tabela em seus metadados no Amazon S3. À medida que mais alterações são feitas na tabela, mais arquivos de dados são criados e as consultas podem se tornar menos eficientes. Para melhorar a performance e controlar os custos, as organizações precisavam criar pipelines de dados personalizados que compactassem periodicamente pequenos arquivos. A criação desses pipelines personalizados é demorada e cara. Este lançamento oferece compactação automática de tabelas do Apache Iceberg no Catálogo de Dados do AWS Glue. Uma vez ativado, o Catálogo de Dados do AWS Glue monitora continuamente novas gravações de dados, rastreia pequenos arquivos no armazenamento subjacente do Amazon S3 e aciona automaticamente trabalhos de compactação em segundo plano, sem que você precise interferir. Agora, você pode obter um layout do Amazon S3 sempre otimizado para tabelas do Iceberg, o que resulta em maior performance de leitura nos data lakes.

Além do Console da AWS, os clientes também podem usar a AWS CLI ou os SDKs da AWS para automatizar a ativação da compactação de tabelas do Apache Iceberg. Para obter mais detalhes, acesse aqui.

A compactação automática de tabelas Iceberg está disponível nas regiões Ásia-Pacífico (Tóquio), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon) e Europa (Irlanda). Para saber mais, leia o blog e consulte a documentação do Catálogo de Dados do AWS Glue.