Publié le: May 9, 2023
Vous pouvez désormais utiliser Amazon Athena pour interroger des tables créées avec Apache Hudi 0.12.2, qui inclut la prise en charge d'une meilleure capacité de mise à l’échelle des requêtes accédant à des ensembles de données dans le lac de données Amazon S3. L'intégration mise à jour vous permet d'utiliser Athena pour interroger des tables Hudi 0.12.2 gérées via Amazon EMR, Apache Spark, Apache Hive ou d'autres services compatibles.
Apache Hudi est un framework de gestion de données open source utilisé pour simplifier le traitement incrémentiel des données dans les lacs de données S3. Hudi fournit un traitement des données de niveau record qui peut vous aider à simplifier le développement des pipelines de capture des données de modification (CDC), à vous conformer aux mises à jour et aux suppressions liées au RGPD et à mieux gérer les données de streaming provenant de capteurs ou d'appareils nécessitant une insertion de données et des mises à jour d'événements. La version 0.12.2 inclut la prise en charge des tables de métadonnées, qui sont conçues pour éliminer la nécessité de l'opération de « liste des fichiers » afin de mieux prendre en charge une mise à l'échelle efficace sur des jeux de données plus volumineux. La table de métadonnées gérera plutôt la liste des fichiers de manière proactive et supprimera le besoin d'opérations récursives de listage des fichiers afin d'éviter de dépasser les limites de demandes dans le cas de systèmes de stockage tels qu'Amazon S3.
La prise en charge d'Apache Hudi 0.12.2 est disponible dans la version 3 du moteur Athena et est disponible dans les régions prises en charge. Pour en savoir plus sur le nouveau support d'Apache Hudi 0.12.2 dans Athena, consultez la section Interrogation des ensembles de données Hudi dans la documentation utilisateur d'Athena.