Le catalogue de données AWS Glue prend désormais en charge l'optimisation du stockage des tables Apache Iceberg

Publié le: 12 sept. 2024

Le Catalogue de données AWS Glue prend désormais en charge l'optimisation du stockage des tables Apache Iceberg en supprimant automatiquement les fichiers de données qui ne sont plus nécessaires. Chaque écriture dans une table Iceberg crée un nouvel instantané, ou une nouvelle version, d'une table. En outre, tout échec lors de l'écriture dans les tables Iceberg créera des fichiers de données qui ne seront pas référencés dans les instantanés, appelés fichiers « orphelins », ce qui augmentera encore les coûts de stockage. Les nouvelles optimisations de stockage du catalogue AWS Glue, associées au compactage automatique, vous aideront à réduire la charge des métadonnées, à contrôler les coûts de stockage et à améliorer les performances des requêtes.

Avec ce lancement, vous pouvez activer l'optimisation des tables de catalogue AWS Glue pour inclure la gestion des instantanés et des données orphelines. Vous pouvez optimiser la configuration d'Amazon S3 en fournissant des paramètres tels que la période de rétention par défaut et les jours de conservation des fichiers orphelins. Une fois activé, le catalogue AWS Glue surveille régulièrement les tableaux, supprime les instantanés des métadonnées des tableaux, supprime les fichiers de données Amazon S3 et les fichiers orphelins qui ne sont plus nécessaires. Vous pouvez consulter l'historique du nombre de données, de manifestes, de listes de manifestes et de fichiers orphelins supprimés depuis l'onglet d'optimisation des tables de la console du catalogue Glue.

Outre la console AWS, les clients peuvent également utiliser l'interface de ligne de commande AWS ou les kits SDK AWS pour optimiser les tables Apache Iceberg. L'optimisation automatique pour les tables Iceberg est disponible dans 13 régions AWS, à savoir USA Est (Virginie du Nord, Ohio), USA Ouest (Oregon), Europe (Irlande, Londres, Francfort, Stockholm), Asie-Pacifique (Tokyo, Séoul, Mumbai, Singapour, Sydney) et Amérique du Sud (São Paulo). Pour en savoir plus, consultez le blog ainsi que la documentation relative au Catalogue de données AWS Glue.