Publié le: Jan 21, 2022

Nous sommes fiers de vous annoncer qu’Amazon EMR 6.5.0 inclut désormais Apache Iceberg version 0.12. Apache Iceberg est un format de table ouvert pour de larges jeux de données dans Amazon S3 qui fournit des performances de requêtes rapides sur de grandes tables, des engagements atomiques, des écritures simultanées et une évolution de tables compatible à SQL. La version actuelle vous permet d’utiliser Apache Spark 3.1.2 sur des clusters EMR avec le format de table Iceberg.

Apache Iceberg offre un format de table open source pour des données stockées dans des lacs de données permettant aux ingénieurs de données de faire face à des défis complexes tels que la gestion de jeux de données en perpétuelle évolution, tout en maintenant le niveau de performance des requêtes. Iceberg vous permet de :

  • maintenir une cohérence transactionnelle sur des tables entre plusieurs applications permettant l’ajout, la suppression ou la modification automatiques de fichiers avec un isolement total et plusieurs écritures simultanées
  • implémenter une évolution de schéma complète pour suivre les modifications d’une table sur la durée
  • émettre des demandes de voyage dans le temps pour interroger des historiques de données et vérifier les modifications entre les mises à jour
  • organiser des tables en dispositions de partitions flexibles avec l’évolution des partitions permettant des mises à jour en schémas de partitions à mesure des modifications des demandes et des volumes de données sans compter sur des répertoires physiques
  • restaurer des tables sur des versions précédentes pour corriger rapidement des problèmes et remettre les tables dans un état correct connu
  • exécuter une planification et un filtrage avancés dans des demandes haute performance sur de larges jeux de données, etc.

La version 6.5.0 d'Amazon EMR avec Apache Iceberg est désormais disponible dans les régions USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Amérique du Sud (São Paulo), Europe (Irlande), Europe (Stockholm), AWS GovCloud (US), Services Ouest Amazon chine (région de Pékin) opérés par Sinnet, Services Ouest Amazon région de Chine (Ningxia), opérés par NWCD. D'autres régions seront ajoutées dans les semaines à venir.

Pour en savoir plus sur l’utilisation d’Apache Iceberg sur Amazon EMR, consultez la page de documentation Amazon EMR ici.