Amazon S3 agora oferece suporte à compactação dos formatos Apache Avro e ORC para tabelas do Apache Iceberg

Publicado: 15 de jul de 2025

O Amazon S3 expandiu o suporte à compactação para incluir os formatos Apache Avro e ORC para tabelas do Apache Iceberg, complementando os recursos existentes do formato Parquet. Esse aprimoramento funciona tanto em tabelas do S3 quanto em buckets do S3 de uso geral usando a otimização do Catálogo de Dados do AWS Glue.

Embora o Parquet seja o formato padrão para tabelas do Iceberg, você também pode gravar dados nos formatos Avro ou ORC para workloads específicas. Por exemplo, você pode usar o Avro para melhorar a performance de gravação para casos de uso de ingestão de dados e streaming, como transações de compra diárias, streaming de dados de sensores ou coleta de impressões de anúncios. As Tabelas do S3 compactam automaticamente arquivos pequenos em arquivos maiores para minimizar os dados digitalizados, melhorar a performance da consulta e reduzir custos. Por padrão, a compactação converte arquivos Avro e ORC em Parquet para otimizar a performance de leitura, mas você pode especificar seu formato de destino preferido nas propriedades da tabela.

O suporte à compactação para os formatos Apache Avro e ORC agora está disponível em todas as regiões da AWS nas quais as Tabelas do S3 ou a otimização com o Catálogo de Dados do AWS Glue estão disponíveis. Para saber mais sobre a compactação das Tabelas do S3, consulte a documentação sobre manutenção das Tabelas do S3. Para otimização de bucket para fins gerais, consulte a documentação da otimização do Catálogo de Dados do AWS Glue.