AWS anuncia suporte para vetores de exclusão e linhagem de linhas do Apache Iceberg V3
Agora, a AWS oferece suporte a vetores de exclusão e linhagem de linhas, conforme definido na especificação Apache Iceberg versão 3 (V3). Esses novos atributos estão disponíveis com o Apache Spark no Amazon EMR 7.12, no AWS Glue, nos cadernos do Amazon SageMaker, nas Tabelas do Amazon S3 e no Catálogo de Dados do AWS Glue.
Esses recursos do Iceberg V3 ajudam os clientes a criar data lakes em escala de petabytes com performance aprimorada para modificações de dados e funcionalidade para rastrear facilmente os registros alterados. Os vetores de exclusão gravam arquivos de exclusão otimizados que aceleram os pipelines de dados e reduzem os custos de compactação de dados. A linhagem de linhas fornece campos de metadados em cada registro para rastrear alterações com uma simples consulta SQL, eliminando o custo computacional de encontrar pequenas alterações em tabelas grandes.
Comece a criar tabelas da V3 definindo a propriedade da tabela como “format-version = 3” no comando CREATE TABLE no Spark ou em um caderno do SageMaker. Para atualizar as tabelas existentes, basta atualizar a propriedade da tabela nos metadados com a nova versão do formato. Quando você faz isso, os mecanismos de consulta da AWS que aceitam a V3 começarão automaticamente a usar vetores de exclusão e linhagem de linhas.
Os vetores de exclusão e a linhagem de linhas do Iceberg V3 agora estão disponíveis em todas as regiões da AWS onde há suporte para cada serviço/atributo respectivo: Amazon EMR, AWS Glue, cadernos do SageMaker, Tabelas do S3 e Catálogo de Dados do AWS Glue. Para saber mais sobre o suporte da AWS para o Iceberg V3, acesse Apache Iceberg V3 na AWS e leia a publicação do blog.