Publicado: Jan 21, 2022

Temos o prazer de anunciar que o Amazon EMR 6.5.0 agora inclui o Apache Iceberg versão 0.12. Apache Iceberg é um formato de tabela de código aberto para grandes conjuntos de dados no Amazon S3 e fornece performance de consulta rápida em tabelas grandes, confirmações atômicas, gravações simultâneas e evolução de tabela compatível com SQL. Com a versão atual, você pode usar o Apache Spark 3.1.2 em clusters EMR com o formato de tabela do Iceberg.

O Apache Iceberg oferece um formato de tabela de código aberto para dados armazenados em data lakes que ajuda os engenheiros de dados a gerenciar desafios complexos, como gerenciar conjuntos de dados em constante evolução, mantendo a performance das consultas. O Iceberg permite que você:

  • Mantenha a uniformidade transacional em tabelas entre várias aplicações onde os arquivos podem ser adicionados, removidos ou modificados atomicamente com isolamento total de leitura e várias gravações simultâneas.
  • Implemente a evolução completa do esquema para rastrear alterações em uma tabela ao longo do tempo.
  • Emita consultas de viagem no tempo para consultar dados históricos e verificar alterações entre atualizações.
  • Organize tabelas em layouts de partição flexíveis com a evolução da partição, permitindo atualizações nos esquemas de partição à medida que as consultas e os volumes de dados mudam sem depender de diretórios físicos.
  • Reverta tabelas para versões anteriores para corrigir problemas rapidamente e retornar as tabelas a um estado bom conhecido.
  • Realize planejamento e filtragem avançados em consultas de alta performance em grandes conjuntos de dados etc.

A versão 6.5.0 do Amazon EMR com Apache Iceberg já está disponível no Leste dos EUA (Norte da Virgínia e Ohio), Oeste dos EUA (Oregon), América do Sul (São Paulo), Europa (Irlanda e Estocolmo), AWS GovCloud (EUA), Amazon Web Services China (região de Pequim) Operada pela Sinnet, região da Amazon Web Services China (Ningxia), operada pela NWCD com mais regiões sendo adicionadas nas próximas semanas.

Para saber mais sobre como usar o Apache Iceberg no Amazon EMR, consulte a página de documentação do Amazon EMR aqui.