Tabelas do Amazon S3
Armazene dados tabulares em grande escala com tabelas Apache Iceberg totalmente gerenciadas no Amazon S3
O que são Tabelas do S3?
As Tabelas do Amazon S3 são tabelas Apache Iceberg totalmente gerenciadas que automatizam a carga operacional do gerenciamento de data lakes e lakehouses. Por meio de estratégias avançadas de compactação e manutenção, as Tabelas do S3 otimizam automaticamente o desempenho das consultas à medida que os volumes de dados aumentam. As Tabelas do S3 funcionam com qualquer mecanismo compatível com o Iceberg, incluindo Apache Spark, Trino, Amazon Athena, Amazon Redshift e outras ferramentas de terceiros, permitindo flexibilidade de arquitetura e fornecendo a maneira mais fácil de armazenar dados tabulares em grande escala.
Benefícios
As Tabelas do S3 otimizam continuamente as tabelas Iceberg por meio de compactação, gerenciamento de snapshots e remoção de arquivos não referenciados. A replicação automática reduz a latência de consultas para equipes distribuídas, e o Intelligent-Tiering reduz os custos de armazenamento em até 80%. Como resultado, as equipes de dados podem se concentrar na criação em vez de gerenciar a infraestrutura.
Quanto mais as workloads crescem, mais a manutenção e a otimização das tabelas Iceberg são importantes e mais difícil se torna acompanhá-las. As Tabelas do S3 mantêm automaticamente o desempenho das tabelas para que as consultas permaneçam consistentes à medida que seus dados crescem, em vez de se degradarem. Os dados são respaldados pelo armazenamento mais durável da nuvem, projetado para fornecer 99,999999999% (11 noves) de durabilidade e 99,99% de disponibilidade por padrão.
Criadas com base no padrão aberto Apache Iceberg, as Tabelas do S3 garantem que seus dados nunca fiquem presos a um único mecanismo de computação ou fornecedor. As Tabelas do S3 expõem a API Iceberg REST Catalog, portanto funcionam com mecanismos compatíveis com o Iceberg, incluindo Spark, Trino, Flink, Athena, Redshift, Snowflake e outras ferramentas de terceiros, preservando o investimento em ferramentas existentes e permitindo flexibilidade de longo prazo.
Gerenciar a governança e a segurança da tabela Iceberg pode ser complexo e fragmentado. As Tabelas do S3 são recursos de primeira classe da AWS com controle de acesso em nível de tabela, criptografia e gerenciamento do ciclo de vida integrados, eliminando a necessidade de gerenciar políticas de bucket do S3 para cada tabela e simplificando a governança para ambientes de analytics complexos.
As Tabelas do S3 oferecem armazenamento otimizado para analytics, com até dez vezes mais transações por segundo em comparação às tabelas Iceberg armazenadas em buckets de uso geral do S3. Com o suporte do MCP, agentes de IA e LLMs podem interagir com as Tabelas do S3, possibilitando analytics orientado por IA. As integrações nativas com os serviços do AWS Analytics e a compatibilidade com ferramentas de terceiros por meio da API REST do Iceberg significam que as Tabelas do S3 podem potencializar fluxos de trabalho emergentes baseados em IA.
Como funcionam as Tabelas do S3
Casos de uso
Modernize os data lakes migrando das tabelas Parquet, Apache Hive ou Hadoop para Apache Iceberg, reduzindo a complexidade operacional e criando data lakes escaláveis prontos para IA compatíveis com workloads avançadas de analytics e IA/machine learning.
Saiba mais
Transmita dados diretamente para tabelas Iceberg de fontes como sensores de IoT, sistemas de transações e logs de aplicações usando os serviços de streaming da AWS, com otimização automática em segundo plano que mantém os dados de streaming consultáveis quase em tempo real.
As Tabelas S3 oferecem até dez vezes mais transações por segundo em comparação com o armazenamento de tabelas Iceberg em buckets de uso geral, tornando-as adequadas para operações e workloads de analytics em grande escala que exigem alto throughput.
Consulte dados armazenados em tabelas Iceberg usando linguagem natural por meio do protocolo de contexto para modelos (MCP), possibilitando a exploração ad-hoc sem experiência em SQL. As Tabelas do S3 são compatíveis com acesso simultâneo de vários usuários e assistentes de IA com otimização automática, mantendo o desempenho da consulta.
Saiba mais
Assista a uma demonstração
Parceiros e integrações
Daft
“As Tabelas do Amazon S3 são o complemento perfeito para o suporte do Daft para o Apache Iceberg. Ao aproveitar as integrações com o AWS Lake Formation e o AWS Glue, conseguimos estender facilmente nossos recursos atuais de leitura e gravação do Iceberg para as Tabelas do S3 e, ao mesmo tempo, aproveitar sua performance otimizada. Estamos ansiosos e entusiasmados com a evolução desse novo serviço e em fornecer o melhor suporte das Tabelas do S3 para o ecossistema de ML e IA e engenharia de dados Python.”
Sammy Sidhu, diretor executivo e cofundador, Daft
Dremio
“A Dremio tem o prazer de anunciar o suporte à disponibilidade geral das Tabelas do Amazon S3. Ao oferecer suporte à especificação do Apache Iceberg REST Catalog (IRC), as Tabelas do S3 garantem uma interoperabilidade perfeita com o Dremio, permitindo que os usuários se beneficiem de um mecanismo SQL de alta performance capaz de consultar tabelas do Apache Iceberg gerenciadas em buckets otimizados das Tabelas do S3. Essa colaboração reforça a importância dos padrões abertos no ecossistema de lakehouse, eliminando a complexidade da integração e acelerando a adoção pelos clientes. Com as Tabelas do Amazon S3 e o suporte de IRC, as organizações ganham a flexibilidade e a alternativa necessárias para criar uma arquitetura de lakehouse unificada na era da IA.”
Rahim Bhojani, diretor de tecnologia, Dremio
DuckDB Labs
“As Tabelas do Amazon S3 se alinham perfeitamente com a visão da DuckDB de democratizar o data analytics usando formatos de arquivo aberto. A colaboração entre a AWS e a DuckDB Labs nos permite ampliar ainda mais o suporte do Iceberg no DuckDB e desenvolver uma integração perfeita com as Tabelas do S3. Acreditamos que a mentalidade de tudo incluído e compartilhado do DuckDB e das Tabelas do S3 se funde em uma pilha robusta de analytics que pode lidar com uma ampla variedade de workloads e, ao mesmo tempo, manter uma barreira de entrada incrivelmente baixa.
Hannes Mühleisen, diretor executivo, DuckDB Labs
HighByte
“As Tabelas do Amazon S3 são um novo atributo robusto que otimiza o gerenciamento, o desempenho e o armazenamento de dados tabulares para workloads de analytics. A integração direta do HighByte Intelligence Hub com as Tabelas do Amazon S3 facilita para os fabricantes globais a criação de um data lake aberto e transacional para os dados industriais. As Tabelas do S3 possibilitam a consulta instantânea de dados brutos do Parquet, permitindo que os clientes enviem informações contextualizadas da borda para a nuvem para uso imediato, sem processamento ou transformações adicionais. Isso tem um grande impacto na performance e na otimização de custos para nossos clientes mútuos.”
Aron Semle, diretor de tecnologia, HighByte
PuppyGraph
“O Amazon S3 sempre foi a base da infraestrutura moderna de dados, e o lançamento das Tabelas do S3 é um marco importante, tornando possível que o Apache Iceberg se torne o padrão universal para dados e IA. Essa inovação permite que as organizações aproveitem formatos de tabela aberta de alta performance no S3, permitindo o analytics de vários mecanismos sem duplicação de dados. Para os clientes do PuppyGraph, isso significa que agora eles podem executar consultas de gráficos em tempo real diretamente em seus dados do S3, mantendo insights novos e escaláveis sem a sobrecarga do ETL complexo. Estamos entusiasmados em fazer parte dessa evolução, tornando o analytics de gráficos tão perfeito quanto os próprios dados.”
Weimo Liu, cofundador e diretor executivo, PuppyGraph
RisingWave
“A integração do RisingWave com as Tabelas do Amazon S3 capacita as organizações a aproveitar perfeitamente as tabelas Apache Iceberg no Amazon S3, aprimorando os recursos de pipeline de dados de streaming. Se você está ingerindo dados brutos, transformando-os em tempo real ou gravando resultados no S3, o RisingWave facilita o trabalho com tabelas do Iceberg como uma extensão natural do seu fluxo de trabalho. Essa integração simplifica o gerenciamento de dados, reduz a complexidade operacional e permite uma interoperabilidade tranquila para equipes que trabalham com analytics de streaming.”
Rayees Pasha, diretor de produtos, RisingWave Labs
Ryft
“A integração da Ryft com as Tabelas do Amazon S3 permite que as equipes operem as tabelas Apache Iceberg como um lakehouse totalmente autônomo. Os clientes obtêm otimização e governança com reconhecimento da workload, otimização e compactação automatizadas do layout de arquivos, retenção e recuperação gerenciadas de snapshots, conformidade automatizada para tabelas Apache Iceberg e visibilidade total no seu lakehouse, tudo em armazenamento nativo do Iceberg. Juntas, a Ryft e as Tabelas do S3 oferecem consultas consistentemente rápidas, menores custos de armazenamento e operações confiáveis sem ajuste manual ou manutenção baseada em cron.”
Yossi Reitblat, CEO e cofundador, Ryft
Snowflake
“Estamos entusiasmados em trazer a magia do Snowflake para as Tabelas do Amazon S3. Essa colaboração permite que os clientes do Snowflake leiam e processem facilmente os dados armazenados nas Tabelas do S3 usando as configurações existentes do Snowflake, sem a necessidade de migrações ou duplicações complexas de dados. Ao combinar os recursos de excelência de analytics de performance do Snowflake com o armazenamento eficiente das Tabelas do Amazon S3 das tabelas do Apache Iceberg, as organizações podem facilmente consultar e analisar dados tabulares armazenados no Amazon S3.”
Rithesh Makkena, diretor global de engenharia de soluções de parceiros, Snowflake
Starburst
“Estamos entusiasmados em ver o Amazon S3 introduzir suporte integrado para o Apache Iceberg com Tabelas do S3, promovendo o ecossistema do Iceberg Open Data Lakehouse. Com os buckets das Tabelas do S3, esperamos colaborar com a AWS para ajudar nossos clientes em comum a levar o poder de um Open Lakehouse, baseado no Trino otimizado, um mecanismo MPP SQL líder de código aberto, para diversos casos de uso de analytics e IA para dados no Amazon S3.”
Matt Fuller, vice-presidente de produtos, Starburst
StreamNative
“Nossa integração com as Tabelas do Amazon S3 torna os dados em tempo real e prontos para IA mais abertos e acessíveis do que nunca. A arquitetura sem líder da Ursa no S3 já reduz os custos de armazenamento, e a integração direta com as Tabelas do S3 melhora ainda mais a performance e a eficiência. Em um mundo impulsionado pela IA, a governança de dados é crucial. Na StreamNative, estamos comprometidos em ajudar as empresas a reduzir o TCO em 90%, ao mesmo tempo em que tornamos fácil e acessível a criação de aplicações baseadas em IA com dados governados em tempo real.”
Sijie Guo, diretor executivo e cofundador, StreamNative
Perguntas frequentes
Você deve usar as Tabelas do S3 para ter uma maneira simples, eficiente e econômica de armazenar dados tabulares no Amazon S3. O S3 Tables permite que você organize seus dados estruturados em tabelas e, em seguida, consulte esses dados usando instruções SQL padrão, praticamente sem configuração. Além disso, as Tabelas do S3 oferecem as mesmas características de durabilidade, disponibilidade, escalabilidade e desempenho do próprio S3 e otimiza automaticamente seu armazenamento para maximizar o desempenho de consultas e minimizar os custos. Com a classe de armazenamento Intelligent-Tiering, as Tabelas do S3 otimizam automaticamente os custos com base nos padrões de acesso, sem impacto no desempenho ou sobrecarga operacional.
As tabelas S3 oferecem até dez vezes mais transações por segundo (TPS) em comparação com o armazenamento de tabelas Iceberg em buckets de uso geral do Amazon S3. As Tabelas do S3 realizam automaticamente a compactação nos dados subjacentes para otimizar continuamente suas tabelas e otimizar o desempenho da consulta. Dependendo da workload e dos padrões de consulta, você também pode escolher entre estratégias avançadas de compactação, como classificação e compactação em ordem z, para otimizar ainda mais suas tabelas. A compactação por classificação organiza os dados com base em colunas especificadas para melhorar o desempenho da consulta para operações filtradas, enquanto a compactação z-order otimiza a organização dos dados em várias dimensões, tornando-a ideal quando você precisa consultar dados em várias colunas simultaneamente.
Você pode começar a usar as Tabelas do S3 em apenas algumas etapas simples, sem precisar montar nenhuma infraestrutura fora do S3. Primeiro, crie um bucket de tabela no console do S3. Como parte da criação do seu primeiro bucket de tabela por meio do console, a integração com os serviços do AWS Analytics ocorre automaticamente, o que permite que o S3 preencha automaticamente todos os buckets e tabelas da sua conta e região no Catálogo de Dados do AWS Glue. Depois disso, o S3 Tables estará acessível aos mecanismos de consulta da AWS, como Amazon Athena, EMR e Redshift. Em seguida, você poderá clicar para criar uma tabela usando o Amazon Athena a partir do console do S3. Uma vez no Athena, você poderá começar a preencher novas tabelas e consultá-las rapidamente.
Como alternativa, você pode acessar as tabelas do S3 usando o endpoint do catálogo Iceberg REST por meio do Catálogo de Dados do AWS Glue, que permite descobrir todo o seu patrimônio de dados, incluindo todos os recursos da tabela. Você também pode se conectar diretamente a um endpoint de bucket de tabela individual para descobrir todos os recursos do S3 Tables dentro desse bucket. Isso permite que você use o S3 Tables com qualquer aplicação ou mecanismo de consulta compatível com a especificação do catálogo REST do Apache Iceberg.