Publié le: Nov 22, 2022
Les clients d'Amazon EMR peuvent désormais utiliser le Catalogue de données AWS Glue à partir de leurs flux de travail SQL par lots et par flux sur Flink. Le Catalogue de données AWS Glue est compatible avec le metastore Apache Hive. Vous pouvez configurer vos tâches Flink sur Amazon EMR pour utiliser le Catalogue de données comme metastore Apache Hive externe. Avec cette version, vous pouvez alors exécuter directement des requêtes SQL Flink sur les tables stockées dans le Catalogue de données.
Flink prend en charge le metastore Hive sur le cluster comme catalogue persistant prêt à l'emploi. Cela signifie que les métadonnées devaient être recréées lorsque les clusters étaient arrêtés et qu'il était difficile pour plusieurs clusters de partager les mêmes informations de métadonnées. À partir d'Amazon EMR 6.9, vos tâches Flink sur Amazon EMR peuvent gérer les métadonnées de Flink dans le Catalogue de données AWS Glue. Vous pouvez utiliser un Catalogue de données AWS Glue persistant et entièrement géré comme référentiel centralisé. Chaque Catalogue de données est un ensemble hautement évolutif de tables organisées en bases de données.
Le Catalogue de données AWS Glue fournit un référentiel uniforme où des systèmes disparates peuvent stocker et trouver des métadonnées pour assurer le suivi des données dans les silos de données. Vous pouvez ensuite interroger les métadonnées et transformer ces données de manière cohérente dans une grande variété d'applications. Grâce à la prise en charge du Catalogue de données AWS Glue, vous pouvez utiliser Apache Flink sur Amazon EMR pour le traitement unifié par LOTS et PAR FLUX des tables Apache Hive ou des métadonnées de toute source de tables Flink telle que Iceberg, Kinesis ou Kafka. Vous pouvez spécifier le Catalogue de données AWS Glue comme metastore pour Flink en utilisant la Console de gestion AWS, l'Interface de la ligne de commande AWS (AWS CLI) ou l'API Amazon EMR.
Vous pouvez utiliser cette fonctionnalité dans toutes les régions où Amazon EMR est disponible. Pour en savoir plus sur ces fonctions, veuillez consulter notre documentation.