- Armazenamento›
- Amazon S3›
- Tabelas do Amazon S3
Tabelas do Amazon S3
Otimize a performance das consultas e reduza custos conforme seu data lake muda de tamanho
Armazenar dados tabulares em grande escala no S3
As Tabelas do Amazon S3 fornecem o primeiro armazenamento de objetos na nuvem com suporte integrado ao Apache Iceberg e simplifica o armazenamento de dados tabulares em grande escala. A otimização contínua de tabelas digitaliza e reescreve automaticamente os dados das tabelas em segundo plano para otimizar o desempenho das consultas, que continuará melhorando com o tempo. As Tabelas do S3 incluem otimizações específicas para workloads do Iceberg que oferecem transações até 10 vezes maiores por segundo em comparação com as tabelas do Iceberg armazenadas em buckets do S3 de uso geral. Além disso, com a classe de armazenamento Intelligent-Tiering, as Tabelas do S3 otimizam automaticamente os custos com base nos padrões de acesso, sem impacto no desempenho ou sobrecarga operacional.
Com o suporte das Tabelas do S3 para o padrão Apache Iceberg, os dados tabulares podem ser consultados facilmente por mecanismos de consulta populares da AWS e de terceiros. Use as Tabelas do S3 para armazenar dados tabulares, como transações diárias de compras, dados de sensores em transmissão ou impressões de anúncios, como uma tabela do Iceberg no S3. Além disso, use essa solução para otimizar a performance e os custos à medida que seus dados evoluem com a manutenção automática de tabelas. Leia a publicação do blog para saber mais.
Benefícios
Expanda seu data lake sem esforço, da primeira tabela à escala corporativa, gerenciando milhares de tabelas do Iceberg sem se preocupar com a infraestrutura ou a sobrecarga de manutenção.
Obtenha um desempenho de consulta mais rápido por meio da otimização contínua de tabelas, incluindo a compactação avançada de classificação e ordem z, em comparação com tabelas do Iceberg não gerenciadas e transações até 10 vezes maiores por segundo em comparação com tabelas Iceberg armazenadas em buckets do S3 de uso geral. Use a replicação das Tabelas do S3 para reduzir a latência de consultas para equipes distribuídas geograficamente.
Automatize as tarefas de manutenção de tabelas, incluindo compactação, gerenciamento de instantâneos e remoção de arquivos não referenciados, para otimizar continuamente o desempenho e reduzir os custos. Use a classe de armazenamento Intelligent-Tiering para otimizar ainda mais os custos dos dados consultados ativamente. Obtenha visibilidade operacional completa com métricas granulares no CloudWatch e logs no CloudTrail para operações de armazenamento, solicitação e manutenção.
Acesse funcionalidades avançadas de analytics do Iceberg e consultar dados usando serviços conhecidos da AWS, como o Amazon Athena, o Redshift e o EMR, por meio da integração prévia das Tabelas do S3 com a arquitetura do Amazon SageMaker Lakehouse. Além disso, você pode usar aplicações de terceiros compatíveis com o Iceberg REST, como Apache Spark, Apache Flink, Trino, DuckDB e PyIceberg, para ler e gravar dados nas Tabelas do S3.
Gerencie tabelas como recursos de primeira classe da AWS com políticas de recursos do IAM para controle de acesso em nível de tabela. Use tags para controle de acesso por atributo (ABAC) para agilizar o gerenciamento de permissões em grande escala. Proteja dados com a criptografia do AWS KMS usando chaves gerenciadas pelo cliente e mantenha o controle sobre sua estratégia de criptografia.
Como funciona
As Tabelas do S3 fornecem um armazenamento do S3 desenvolvido com propósito específico para armazenar dados estruturados no formato Apache Iceberg. Em um bucket de tabelas, é possível criar tabelas como recursos primários diretamente no S3. Essas tabelas podem ser protegidas com permissões a nível de tabela definidas em políticas baseadas em identidade ou em recursos e são acessíveis por aplicações ou ferramentas compatíveis com o padrão do Apache Iceberg. Quando você cria uma tabela em seu bucket de tabelas, o S3 mantém os metadados necessários para tornar esses dados acessíveis para consultas pelas suas aplicações. Os buckets de tabelas incluem um endpoint do Iceberg REST Catalog que pode ser usado por qualquer mecanismo de consulta compatível com o Iceberg para descobrir, acessar e atualizar metadados do Iceberg para tabelas em seu bucket de tabelas. Isso permite que vários clientes leiam e gravem dados em suas tabelas com segurança. Ao longo do tempo, o S3 realiza a otimização automática dos dados subjacentes ao reescrever ou “compactar” os objetos. A compactação otimiza os dados armazenados no S3 para aprimorar a performance das consultas. Além disso, a expiração do snapshot e a remoção de arquivos não referenciados otimizam o custo de armazenamento à medida que os dados em suas tabelas envelhecem. Leia o guia do usuário para saber mais.
Clientes
Genesys
A Genesys é líder global na nuvem em orquestração de experiências com base em inteligência artificial. Por meio de funcionalidades avançadas de IA, gerenciamento de engajamento digital e da força de trabalho, a Genesys auxilia mais de 8 mil organizações em mais de cem países a proporcionar experiências personalizadas e empáticas a clientes e colaboradores, enquanto conquistam maior agilidade nos negócios e resultados aprimorados.
“As Tabelas do Amazon S3 representarão uma adição transformadora à nossa arquitetura de dados, especialmente com seu suporte gerenciado ao Iceberg, que efetivamente cria uma camada de visão materializada para atender às diversas necessidades de análise de dados. Esta oferta tem o potencial de ajudar a Genesys a simplificar fluxos de trabalho de dados complexos ao eliminar as camadas adicionais de gerenciamento de tabelas, com o S3 assumindo automaticamente as tarefas principais de manutenção, como a compactação, o gerenciamento de snapshots e a limpeza de arquivos não referenciados. A capacidade de realizar a leitura e a gravação de tabelas do Iceberg diretamente do S3 nos ajudará a aumentar a performance e criar novas possibilidades para integrar dados de forma contínua em nosso ecossistema de analytics. Essa interoperabilidade, juntamente com os aprimoramentos de performance, posiciona as Tabelas do S3 como um componente fundamental de nossa estratégia futura para fornecer insights de dados rápidos, flexíveis e confiáveis.”
Glenn Nethercutt, diretor de tecnologia, Genesys
Indeed
Mais pessoas encontram vagas no Indeed do que em qualquer outro lugar. O Indeed é o principal site de empregos do mundo (Comscore, Total Visits, março de 2025). Com 635 milhões de perfis de candidatos a emprego, pessoas em mais de 60 países que falam 28 idiomas acessam o Indeed para procurar vagas, publicar currículos e pesquisar empresas. Mais de 3,3 milhões de empregadores usam o Indeed para encontrar e contratar novos funcionários. O Indeed é uma subsidiária da Recruit Holdings, líder global em tecnologia de RH e soluções de negócios que está simplificando as contratações e transformando o mundo do trabalho.
“No Indeed, utilizamos grandes quantidades de dados para entender o mercado de trabalho e conectar as pessoas às oportunidades certas. Ao migrar nosso data lake de 85 petabytes para as Tabelas do S3, simplificaremos nossa infraestrutura de dados, reduziremos custos e reinvestiremos esses recursos no que é mais importante: foco na nossa missão de ajudar as pessoas a conseguirem empregos.”
Chris Voss, diretor de engenharia de software, Indeed
Zeta Global
A Zeta Global é a nuvem de marketing de IA que aproveita a inteligência artificial avançada e trilhões de sinais do consumidor para facilitar aos profissionais de marketing a aquisição, o crescimento e a retenção de clientes com mais eficiência. Por meio da plataforma de marketing Zeta, a Zeta simplifica o marketing sofisticado ao unificar identidade, inteligência e ativação omnicanal em uma única plataforma, alimentada por um dos maiores bancos de dados proprietários e IA do setor.
“A plataforma de marketing de IA da Zeta Global depende de dados massivos, em constante mudança e imediatamente práticos. Ao usar as Tabelas do Amazon S3 como base de nosso lakehouse de 10 petabytes, abrangendo mais de 10.000 tabelas do Apache Iceberg, reduzimos a latência de atualização de dados em quase 80%, diminuindo o tempo de obtenção de insights de mais de 15 minutos para apenas alguns minutos. Esse nível de capacidade de resposta fortalece a habilidade da Zeta de oferecer otimização, lances e mensagens de público em tempo real, e reforça nossa liderança em marketing com inteligência artificial.”
Bharat Goyal, vice-presidente executivo, chefe de engenharia, Zeta Global
Pendulum
O Pendulum é uma plataforma de inteligência de marca que tem a cobertura mais abrangente do mundo em conteúdo de vídeo, áudio e texto para identificar riscos e oportunidades de forma proativa, permitindo uma melhor tomada de decisões e analytics de monitoramento em toda a empresa.
“Na Pendulum Intelligence, analisamos dados de centenas de milhões de canais e fontes sociais. As Tabelas do Amazon S3 transformaram a forma como gerenciamos nosso data lake, que processa milhares de horas de conteúdo de vídeo e áudio analisado enquanto extrai contexto de imagens e outras mídias quase em tempo real, usando nossas ferramentas proprietárias de machine learning. Ao eliminar a carga do gerenciamento de tabelas, incluindo compactação, snapshots e limpeza de arquivos, nossa equipe pode se concentrar no que é mais importante: obter insights acionáveis de grandes conjuntos de dados. A integração perfeita com nossa pilha de analytics (Amazon Athena, AWS Glue e Amazon EMR) melhorou significativamente nossa capacidade de processar dados complexos em grande escala.”
Abdurrahman Elbuni, arquiteto de big data em nuvem, Pendulum
SnapLogic
A SnapLogic é uma pioneira em integração liderada por IA. A plataforma para integração generativa da SnapLogic acelera a transformação digital em toda a empresa, permitindo o projeto, a implantação e o gerenciamento de agentes de IA e integrações que automatizam tarefas, tomam decisões em tempo real e se integram aos fluxos de trabalho existentes com facilidade.
“As Tabelas do Amazon S3, com suporte incorporado ao Apache Iceberg e integração com os serviços de analytics da AWS, ajudam as empresas a otimizar os custos de data analytics, ao mesmo tempo em que transformam a maneira como elas usam os dados empresariais para iniciativas de analytics, conformidade e projetos de IA. Ao automatizar tarefas complexas de gerenciamento de dados e fornecer trilhas de auditoria completas das alterações de dados, as equipes podem analisar instantaneamente dados históricos, manter a conformidade regulatória e acelerar os insights de negócios, ao mesmo tempo em que reduzem significativamente os custos tecnológicos.”
Dominic Wellington, arquiteto empresarial, SnapLogic
Zus Health
A Zus é uma plataforma de dados de saúde compartilhados projetada para acelerar a interoperabilidade de dados de saúde ao fornecer dados de pacientes de fácil acesso por meio de API, componentes incorporados e integrações diretas com sistemas de EHR.
“Como uma empresa de saúde que lida com volumes massivos de dados de pacientes que são frequentemente atualizados, decidimos investir no Apache Iceberg, pois ele resolve vários problemas do Apache Hive relacionados ao particionamento e à automação, com o benefício adicional de uma interoperabilidade mais ampla. Um dos principais desafios que enfrentamos com o Iceberg tem sido a compreensão e o gerenciamento da otimização das tabelas. Esse é o motivo pelo qual estamos entusiasmados com as Tabelas do S3 e com as funcionalidades de otimização gerenciada. A capacidade de transferir a sobrecarga do desenvolvedor na manutenção de tabelas permitirá que nos concentremos mais em fornecer dados de alta qualidade e insights valiosos para nossos clientes.”
Sonya Huang, engenheira de software de consultoria, Zus Health
Parceiros e integrações
Daft
O Daft é um mecanismo unificado para engenharia de dados, analytics, ML e IA, expondo as interfaces SQL e Python DataFrame como cidadãos de primeira classe, e é escrito em Rust. O Daft oferece uma experiência interativa local rápida e inteligente, além de escalar perfeitamente para workloads distribuídas em escala de petabytes.
“As Tabelas do Amazon S3 são o complemento perfeito para o suporte do Daft para o Apache Iceberg. Ao aproveitar as integrações com o AWS Lake Formation e o AWS Glue, conseguimos estender facilmente nossos recursos atuais de leitura e gravação do Iceberg para as Tabelas do S3 e, ao mesmo tempo, aproveitar sua performance otimizada. Estamos ansiosos e entusiasmados com a evolução desse novo serviço e em fornecer o melhor suporte das Tabelas do S3 para o ecossistema de ML e IA e engenharia de dados Python.”
Sammy Sidhu, diretor executivo e cofundador, Daft
Dremio
O Dremio é a plataforma inteligente de lakehouse que acelera a IA e o analytics ao oferecer um mecanismo SQL líder do mercado, um catálogo de dados aberto e interoperável e uma plataforma segura, escalável e simples de usar. Nossa liderança nas comunidades do Apache Iceberg, Apache Polaris (em incubação) e Apache Arrow capacita as organizações a criar arquiteturas de lakehouse totalmente abertas e de alta performance, mantendo a flexibilidade e o controle, eliminando a dependência de fornecedor.
“A Dremio tem o prazer de oferecer suporte à disponibilidade geral das Tabelas do Amazon S3. Ao oferecer suporte à especificação do Apache Iceberg REST Catalog (IRC), as Tabelas do S3 garantem uma interoperabilidade perfeita com o Dremio, permitindo que os usuários se beneficiem de um mecanismo SQL de alta performance capaz de consultar tabelas do Apache Iceberg gerenciadas em buckets otimizados das Tabelas do S3. Essa colaboração reforça a importância dos padrões abertos no ecossistema de lakehouse, eliminando a complexidade da integração e acelerando a adoção pelos clientes. Com as Tabelas do Amazon S3 e o suporte de IRC, as organizações ganham a flexibilidade e a alternativa necessárias para criar uma arquitetura de lakehouse unificada na era da IA.”
James Rowland-Jones, vice-presidente de produtos, Dremio
DuckDB Labs
A DuckDB Labs é a empresa fundada pelos criadores do DuckDB, uma ferramenta universal de manipulação de dados muito utilizada. A empresa emprega os principais colaboradores do sistema DuckDB. O DuckDB é um software gratuito e de código aberto sob a licença MIT, e é regido pela Fundação DuckDB independente sem fins lucrativos. O projeto DuckDB disponibiliza o processamento analítico rápido para um público amplo por meio de sua facilidade de uso e portabilidade.
Blog de armazenamento da AWS: Simplificar o acesso a conjuntos de dados tabulares armazenados nas Tabelas do Amazon S3 com o DuckDB
“As Tabelas do Amazon S3 se alinham perfeitamente com a visão da DuckDB de democratizar o data analytics usando formatos de arquivo aberto. A colaboração entre a AWS e a DuckDB Labs nos permite ampliar ainda mais o suporte do Iceberg no DuckDB e desenvolver uma integração perfeita com as Tabelas do S3. Acreditamos que a mentalidade de tudo incluído e compartilhado do DuckDB e das Tabelas do S3 se funde em uma pilha robusta de analytics que pode lidar com uma ampla variedade de workloads e, ao mesmo tempo, manter uma barreira de entrada incrivelmente baixa.
Hannes Mühleisen, diretor executivo, DuckDB Labs
HighByte
A HighByte é uma empresa de software industrial que aborda os desafios de arquitetura e integração de dados enfrentados pelos fabricantes globais à medida que se transformam digitalmente. O HighByte Intelligence Hub, o reconhecido software industrial DataOps da empresa, fornece dados modelados e prontos para uso aos serviços da Nuvem AWS usando uma interface sem código para acelerar o tempo de integração e o analytics.
“As Tabelas do Amazon S3 são um novo atributo robusto que otimiza o gerenciamento, a performance e o armazenamento de dados tabulares para workloads de analytics. A integração direta do HighByte Intelligence Hub com as Tabelas do Amazon S3 facilita para os fabricantes globais a criação de um data lake aberto e transacional para os dados industriais. As Tabelas do S3 possibilitam a consulta instantânea de dados brutos do Parquet, permitindo que os clientes enviem informações contextualizadas da borda para a nuvem para uso imediato, sem processamento ou transformações adicionais. Isso tem um grande impacto na performance e na otimização de custos para nossos clientes mútuos.”
Aron Semle, diretor de tecnologia, HighByte
PuppyGraph
O PuppyGraph é o primeiro mecanismo de consulta de gráficos de ETL zero em tempo real, permitindo que as equipes de dados consultem o lakehouse existente como um gráfico em minutos, sem a necessidade de uma migração ou manutenção dispendiosa. Ele escala para conjuntos de dados do tamanho de petabytes e executa consultas complexas de vários saltos em segundos, potencializando casos de uso, desde a detecção de fraudes até a segurança cibernética e insights orientados por IA.
“O Amazon S3 sempre foi a base da infraestrutura moderna de dados, e o lançamento das Tabelas do S3 é um marco importante, tornando possível que o Apache Iceberg se torne o padrão universal para dados e IA. Essa inovação permite que as organizações aproveitem formatos de tabela aberta de alta performance no S3, permitindo o analytics de vários mecanismos sem duplicação de dados. Para os clientes do PuppyGraph, isso significa que agora eles podem executar consultas de gráficos em tempo real diretamente em seus dados do S3, mantendo insights novos e escaláveis sem a sobrecarga do ETL complexo. Estamos entusiasmados em fazer parte dessa evolução, tornando o analytics de gráficos tão perfeito quanto os próprios dados.”
Weimo Liu, cofundador e diretor executivo, PuppyGraph
RisingWave
A RisingWave Labs, fundada em 2021 em São Francisco, desenvolve o RisingWave, um banco de dados de streaming SQL nativo da nuvem que simplifica o processamento de dados em tempo real. A tecnologia da empresa combina a compatibilidade do PostgreSQL com a arquitetura moderna de streaming, oferecida como uma solução de código aberto e como RisingWave Cloud, uma plataforma totalmente gerenciada.
“A integração do RisingWave com as Tabelas do Amazon S3 capacita as organizações a aproveitar perfeitamente as tabelas do Apache Iceberg no Amazon S3, aprimorando os recursos de pipeline de dados de streaming. Se você está ingerindo dados brutos, transformando-os em tempo real ou gravando resultados no S3, o RisingWave facilita o trabalho com tabelas do Iceberg como uma extensão natural do seu fluxo de trabalho. Essa integração simplifica o gerenciamento de dados, reduz a complexidade operacional e permite uma interoperabilidade tranquila para equipes que trabalham com analytics de streaming.”
Rayees Pasha, CPO, RisingWave Labs
Snowflake
O Snowflake torna a IA empresarial fácil, conectada e confiável. Milhares de empresas em todo o mundo, incluindo centenas das maiores do mundo, usam o AI Data Cloud do Snowflake para compartilhar dados, criar aplicações e potencializar seus negócios com a IA.
Blog de armazenamento da AWS: Conecte o Snowflake às Tabelas do S3 usando o endpoint REST do SageMaker Lakehouse Iceberg
“Estamos empolgados em trazer a magia do Snowflake para as Tabelas do Amazon S3. Essa colaboração permite que os clientes do Snowflake leiam e processem facilmente os dados armazenados nas Tabelas do S3 usando as configurações existentes do Snowflake, sem a necessidade de migrações ou duplicações complexas de dados. Ao combinar os recursos de excelência de analytics de performance do Snowflake com o armazenamento eficiente das Tabelas do Amazon S3 das tabelas do Apache Iceberg, as organizações podem facilmente consultar e analisar dados tabulares armazenados no Amazon S3.”
Rithesh Makkena, diretor global de engenharia de soluções de parceiros, Snowflake
Starburst
O Starburst potencializa a arquitetura básica de dados necessária para aplicações de analytics, IA e dados. Ele usa um ambiente híbrido de data lakehouse desenvolvido pelo Apache Iceberg para oferecer acesso, colaboração e governança em grande escala.
Blog de armazenamento da AWS: Crie um data lake gerenciado do Apache Iceberg usando Starburst e Tabelas do Amazon S3
“Estamos entusiasmados em ver o Amazon S3 introduzir suporte integrado para o Apache Iceberg com Tabelas do S3, promovendo o ecossistema do Iceberg Open Data Lakehouse. Com os buckets das Tabelas do S3, esperamos colaborar com a AWS para ajudar nossos clientes em comum a levar o poder de um Open Lakehouse, baseado no Trino otimizado, um mecanismo MPP SQL líder de código aberto, para diversos casos de uso de analytics e IA para dados no Amazon S3.”
Matt Fuller, vice-presidente de produtos, Starburst
StreamNative
O StreamNative é uma plataforma de mensagens e streaming que alimenta a IA e o analytics com uma ingestão de dados econômica e de alta performance. O mecanismo StreamNative da Ursa permite que as empresas reduzam o custo total de propriedade (TCO) em 90% com a compatibilidade com o Kafka, uma arquitetura sem líder e armazenamento nativo de lakehouse, tornando os dados prontos para IA acessíveis em grande escala.
Blog de armazenamento da AWS: Streaming contínuo para Tabelas do Amazon S3 com o StreamNative Ursa Engine
“Nossa integração com as Tabelas do Amazon S3 torna os dados em tempo real e prontos para IA mais abertos e acessíveis do que nunca. A arquitetura sem líder da Ursa no S3 já reduz os custos de armazenamento, e a integração direta com as Tabelas do S3 melhora ainda mais a performance e a eficiência. Em um mundo impulsionado pela IA, a governança de dados é crucial. Na StreamNative, estamos comprometidos em ajudar as empresas a reduzir o TCO em 90%, ao mesmo tempo em que tornamos fácil e acessível a criação de aplicações baseadas em IA com dados governados em tempo real.”
Sijie Guo, diretor executivo e cofundador, StreamNative