Amazon S3 prend désormais en charge le compactage des formats Apache Avro et ORC pour les tableaux Apache Iceberg

Publié le: 15 juil. 2025

Amazon S3 a étendu la prise en charge du compactage aux formats Apache Avro et ORC pour les tableaux Apache Iceberg, complétant ainsi les fonctionnalités existantes du format Parquet. Cette amélioration fonctionne à la fois dans les tableaux S3 et dans les compartiments S3 à usage général grâce exploitant l'optimisation d'AWS Glue Data Catalog.

Bien que Parquet soit le format par défaut pour les tableaux Iceberg, vous pouvez également écrire des données aux formats Avro ou ORC pour des charges de travail spécifiques. Par exemple, vous pouvez utiliser Avro pour améliorer les performances d'écriture dans le cadre de l'ingestion de données et du streaming dans des cas d'utilisation tels que les transactions d'achat quotidiennes, la diffusion de données de capteurs ou la collecte d'impressions publicitaires. Les tableaux S3 compactent automatiquement les petits fichiers en fichiers plus volumineux afin de minimiser les données analysées, d'améliorer les performances des requêtes et de réduire les coûts. Par défaut, le compactage convertit les fichiers Avro et ORC en Parquet pour des performances de lecture optimales, mais vous pouvez spécifier votre format cible privilégié dans les propriétés de votre tableau.

La prise en charge du compactage pour les formats Apache Avro et ORC est désormais disponible dans toutes les régions AWS où les tableaux S3 ou l'optimisation avec AWS Glue Data Catalog sont disponibles. Pour en savoir plus sur le compactage des tableaux S3, consultez la documentation de maintenance des tableaux S3. Pour une optimisation générale des compartiments, consultez la documentation sur l'optimisation d'AWS Glue Data Catalog.