Publié le: Jul 16, 2021
Amazon Athena a mis à jour son intégration à Apache Hudi pour prendre en charge de nouvelles fonctions et la dernière version de la communauté 0.8.0. Hudi est un cadre de gestion des données open source utilisé pour simplifier le traitement des données incrémentielles dans les lacs de données S3. Cette mise à jour de l'intégration vous permet d'utiliser Athena pour interroger les tables Hudi 0.8.0 gérées via Amazon EMR, Apache Stark, Apache Hive et autres services compatibles, et elle inclut une nouvelle prise en charge des requêtes d'instantanés et de la lecture des tables amorcées.
Apache Hudi propose un traitement des données au niveau de l'enregistrement qui peut vous aider à simplifier le développement des pipelines de capture des données modifiées (CDC, Change Data Capture), à respecter les mises à jour et les suppressions basées sur le RGPD et à mieux gérer le streaming de données à partir de capteurs ou d'appareils qui nécessitent l'insertion de données et des mises à jour d'événements. La version 0.8.0 vous permet de migrer encore plus facilement de grandes tables Parquet vers Hudi sans avoir besoin de copier les données afin que vous puissiez les interroger et les analyser via Athena. De plus, grâce à la nouvelle prise en charge d'Athena pour les requêtes d'instantanés, vous pouvez désormais obtenir des vues en temps quasi-réel des mises à jour de vos tables en streaming.
Pour en savoir plus sur l'intégration d'Athena à Hudi, consultez la série d'articles de blog Utilisation d'Athena pour interroger des jeux de données Apache Hudi et Interrogation d'un jeu de données Apache Hudi avec Amazon Athena.