Publié le: Nov 15, 2019
La version 5.28.0 d'Amazon EMR prend désormais en charge Apache Hudi (Incubating). Les ingénieurs de données qui utilisent Amazon EMR pour le développement de pipelines de données et le traitement de données peuvent désormais exploiter Apache Hudi pour simplifier les cas d'utilisation de la gestion des données incrémentielles et de la confidentialité des données nécessitant des opérations d'insertion, de mise à jour et de suppression au niveau des enregistrements. Apache Hudi permet aux lacs de données Amazon S3 de se conformer aux réglementations de confidentialité des données, de consommer des flux en temps réel et de modifier les journaux de capture des données modifiées, de réactiver les données tardives, de suivre l'historique des modifications et de les restaurer. Apache Hudi est open source et prend en charge le stockage de données sur Amazon S3 dans des formats open source non liés à un fournisseur, tels qu'Apache Parquet et Apache Avro.
Apache Hudi est une infrastructure de gestion des données open source utilisée pour simplifier le traitement des données incrémentielles et le développement de pipelines de données. Apache Hudi vous permet de gérer les données au niveau des enregistrements dans Amazon S3 afin de simplifier la capture des données modifiées (CDC) et l'intégration des données diffusées en continu, et fournit un cadre pour traiter les cas d'utilisation de la confidentialité des données nécessitant des mises à jour et suppressions au niveau des enregistrements. Les ensembles de données gérés par Apache Hudi sont stockés dans S3 à l'aide de formats de stockage ouverts, et les intégrations avec Presto, Apache Hive, Apache Spark et le catalogue de données AWS Glue vous offrent un accès en temps quasi-réel aux données mises à jour au moyen des outils courants.
Apache Hudi est pris en charge nativement dans Amazon EMR et est installé automatiquement lorsque vous choisissez Apache Spark, Hive ou Presto lors du déploiement de votre cluster EMR. Grâce à Apache Hudi, vous pouvez créer des ensembles de données optimisés pour des cas d'utilisation à la fois à lecture intensive et à écriture intensive. Apache Hudi, lui, gérera les données sous-jacentes stockées sur S3 à l'aide d'Apache Parquet et d'Apache Avro pour le stockage des données.
La version 5.28.0 d'Amazon EMR avec Apache Hudi est désormais disponible dans les régions USA Est (Virginie du Nord et Ohio), USA Ouest (Oregon), Amérique du Sud (Sao Paulo), Europe (Irlande et Stockholm), AWS GovCloud (USA Est et USA Ouest), AWS (région de Pékin) opérée par Sinnet. D'autres régions seront ajoutées dans les semaines à venir.
Vous pouvez rester à jour sur les versions Amazon EMR en vous abonnant au flux des notes de versions EMR. Utilisez l'icône en haut du Guide des versions EMR pour lier l'URL du flux directement à votre lecteur de flux préféré.
Pour obtenir des informations détaillées sur l'utilisation d'Apache Hudi avec EMR, participez à la session et à l'atelier re:Invent.
Liens supplémentaires :
Blog des actualités AWS : Nouveau : insérez, mettez à jour et supprimez des données sur S3 avec Amazon EMR et Apache Hudi