Publicado: Jun 8, 2023

Agora, o Amazon Athena para Apache Spark oferece suporte a três frameworks de data lake de código aberto: Apache Hudi 0.13, Apache Iceberg 1.2.1 e Linux Foundation Delta Lake 2.0.2. Esses frameworks simplificam o processamento incremental de dados de grandes conjuntos de dados usando transações de ACID (atomicidade, consistência, isolamento, durabilidade) e simplificam o armazenamento e o processamento de grandes conjuntos de dados em seus data lakes.

O Amazon Athena para Apache Spark é um atributo do Amazon Athena que permite executar análises interativas no Apache Spark em menos de um segundo para analisar petabytes de dados. À medida que os data lakes aumentam de tamanho, pode ser difícil adicionar dados incrementais ao seu data lake e mantê-los transacionalmente consistentes para todos os seus usuários de dados. Esses frameworks de data lake simplificam o processamento incremental de data lakes do S3 usando transações, atualizações e exclusões de ACID para criar arquivos transacionalmente consistentes. Com o lançamento de hoje, os engenheiros de dados agora podem criar e gerenciar tabelas de data lake de forma eficiente com atributos como a evolução do esquema. A evolução do esquema simplifica a adaptação de seus dados às mudanças nos negócios, pois permite alterar a estrutura de dados de suas tabelas de dados existentes sem a necessidade de reescrever seus dados existentes para se adequarem à sua nova estrutura.

O suporte para Apache Iceberg, Apache Hudi e Delta Lake está disponível em 9 regiões da AWS nas quais o Amazon Athena para Apache Spark é oferecido: Leste dos EUA (Ohio), Leste dos EUA (N. da Virgínia), Oeste dos EUA (Oregon), Europa (Irlanda), Europa (Frankfurt), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney) e Ásia-Pacífico (Mumbai). Para saber mais e começar a usá-lo, acesse a página da Web do Amazon Athena para Apache Spark.