Publié le: Jul 14, 2020
Amazon Athena prend désormais en charge l'interrogation de la vue optimisée en lecture d'un ensemble de données Apache Hudi dans votre lac de données basé sur Amazon S3.
Apache Hudi est une infrastructure de gestion des données open source utilisée pour simplifier le traitement des données incrémentielles et le développement de pipelines de données. Hudi permet aux lacs de données Amazon S3 de se conformer aux réglementations de confidentialité des données, de consommer des flux en temps réel et de modifier les journaux de capture des données modifiées, de réactiver les données tardives, de suivre l'historique des modifications et de les restaurer. Apache Hudi est open source et prend en charge le stockage de données sur Amazon S3 dans des formats open source, tels qu'Apache Parquet et Apache Avro.
Les ingénieurs de données utilisent la prise en charge d'Apache Hudi dans Amazon EMR pour développer des pipelines de données et simplifier la gestion incrémentielle des données et les cas d'utilisation de la confidentialité des données qui nécessitent des opérations d'insertion, de mise à jour et de suppression au niveau des enregistrements. Avec cette version, les clients peuvent désormais exécuter des requêtes Athéna pour lire la vue optimisée en conférence d'un ensemble de données Hudi.
Pour plus d'informations et d'exemples sur la création d'une table Hudi et l'exécution de requêtes, veuillez consulter la documentation.