AWS Glue Data Catalog propose une optimisation automatique avancée pour les tables Apache Iceberg

Publié le: 19 déc. 2024

AWS Glue Data Catalog propose désormais une optimisation automatique avancée pour les tables Apache Iceberg. Cette mise à jour inclut la prise en charge du compactage des fichiers supprimés, des types de données imbriqués, des validations de progression partielles et la prise en charge de l'évolution des partitions, ce qui facilite la gestion de lacs de données transactionnels toujours performants. Ces fonctionnalités permettent de résoudre les problèmes rencontrés par les clients en raison de l'ingestion continue de données de streaming dans les tables Apache Iceberg, ce qui entraîne la suppression d'un grand nombre de fichiers qui suivent les modifications apportées aux fichiers de données.

Grâce à cette nouvelle fonctionnalité, Glue Data Catalog surveille en permanence les partitions des tables pour détecter la position et l'égalité des fichiers supprimés, lance le processus de compactage et valide régulièrement des progrès partiels afin de réduire les conflits. Les optimiseurs de Glue Catalog prennent désormais en charge l'évolution des schémas lorsque vous réorganisez ou renommez des colonnes, ainsi que l'évolution des spécifications de partition. En outre, Glue Catalog a étendu la prise en charge des données complexes fortement imbriquées et la prise en charge des codecs de compression Parquet : zstd, brotli, lz4, gzip et snappy. L'activation du compactage automatique réduit la charge de suppression de fichiers et de métadonnées sur vos tables Iceberg, et améliore les performances des requêtes. Ces nouvelles fonctionnalités sont automatiquement appliquées aux optimiseurs de Glue Catalog existants et nouveaux.

Outre la console AWS, les clients peuvent également utiliser l'interface de ligne de commande AWS ou les kits SDK AWS pour automatiser l'optimisation des tables Apache Iceberg. Cette fonctionnalité est disponible dans 14 régions AWS, à savoir USA Est (Virginie du Nord, Ohio), USA Ouest (Oregon), Europe (Irlande, Londres, Francfort, Stockholm), Canada (Centre), Asie-Pacifique (Tokyo, Séoul, Mumbai, Singapour, Sydney) et Amérique du Sud (São Paulo). Pour en savoir plus, consultez le blog ainsi que la documentation relative à AWS Glue Data Catalog.