Publié le: Oct 27, 2022

Les utilisateurs de Hive exécutent la commande Metastore check avec l'option Repair Table (MSCK REPAIR table) pour mettre à jour les métadonnées de partition dans le Metastore de Hive pour les partitions qui ont été directement ajoutées ou retirées du système de fichiers (S3 ou HDFS). Lors de son exécution, la commande de réparation MSCK doit faire un appel au système de fichiers pour vérifier si la partition existe pour chaque partition. Cette étape peut prendre beaucoup de temps si la table comporte des milliers de partitions. Dans EMR 6.5, nous avons introduit une optimisation de la commande de réparation MSCK dans Hive pour réduire le nombre d'appels au système de fichiers S3 lors de la récupération des partitions. Cette fonctionnalité améliore les performances de la commande MSCK (~15-20x sur 10k+ partitions) en raison de la réduction du nombre d'appels au système de fichiers, en particulier lors du travail sur des tables avec un grand nombre de partitions. Auparavant, vous deviez activer cette fonctionnalité en définissant explicitement un indicateur. À partir d'Amazon EMR 6.8, nous avons réduit davantage le nombre d'appels au système de fichiers S3 pour que la réparation MSCK s'exécute plus rapidement et nous avons activé cette fonctionnalité par défaut.

En plus de l'optimisation de la table de réparation MSCK, nous aimerions également vous informer que les utilisateurs d'Amazon EMR Hive peuvent maintenant utiliser le chiffrement modulaire Parquet pour chiffrer et authentifier les informations sensibles dans les fichiers Parquet. La protection de la confidentialité et de l'intégrité des données sensibles à l'échelle, tout en conservant la fonctionnalité Parquet intacte, est une tâche difficile. Les solutions de protection de données telles que le chiffrement des fichiers ou de la couche de stockage sont actuellement utilisées pour chiffrer les fichiers Parquet, mais elles pourraient mener à une dégradation des performances. Avec le chiffrement modulaire Parquet, vous pouvez non seulement permettre un contrôle d'accès granulaire mais aussi préserver les optimisations de Parquet telles que la projection en colonnes, les prédicats pushdown, l'encodage et la compression. Grâce au chiffrement modulaire Parquet, les utilisateurs d'Amazon EMR Hive peuvent protéger à la fois les données et les métadonnées Parquet, utiliser différentes clés de chiffrement pour différentes colonnes, et effectuer un chiffrement partiel des seules colonnes sensibles. Il permet également aux clients de vérifier l'intégrité des données récupérées tout en conservant toutes les optimisations Parquet. Cette fonctionnalité est disponible à partir de la version 6.6 d'Amazon EMR.

Vous pouvez utiliser ces capacités dans toutes les régions où Amazon EMR est disponible et avec les deux options de déploiement : EMR sur EC2 et EMR Serverless. Pour en apprendre plus sur ces fonctionnalités, référez-vous à notre documentation.