Publié le: Dec 19, 2022
Les crawlers AWS Glue améliorent désormais la prise en charge des tables Delta Lake pour Linux Foundation, ce qui accroît l'efficacité opérationnelle et permet d'extraire des informations pertinentes à partir de services d'analyse tels qu'Amazon Athena, Amazon EMR et AWS Glue. Cette fonctionnalité permet à ce type de services d'analyser les tables Delta Lake sans nécessiter la création de fichiers manifestes par des crawlers Glue. Les données récemment cataloguées sont désormais rapidement disponibles pour être analysées par vos outils d'analyse et de machine learning préférés.
Auparavant, les crawlers Glue prenaient en charge les tables Delta Lake en créant des fichiers manifestes dans Amazon S3 destinés à différents services d'analyse. Les crawlers Glue devaient générer régulièrement des fichiers manifestes afin d'inclure les nouvelles transactions dans les tables Delta Lake originales, ce qui allongeait les délais de traitement.
Grâce au lancement d'aujourd'hui, vous pouvez créer et programmer un crawler Glue avec la possibilité de créer des tables Delta Lake natives, puis de fournir un chemin vers Amazon S3, où se trouvent les tables Delta Lake. À chaque exécution, le crawler inspecte et catalogue les informations de schéma et de partition, telles que les mises à jour ou les suppressions, dans les tables Delta Lake du Catalogue de données Glue.
La prise en charge des tables Delta Lake par les crawlers AWS Glue est disponible dans toutes les régions commerciales où AWS Glue est disponible (voir le tableau des Régions AWS). La prise en charge améliorée de Delta Lake est disponible dans la version 3.0 du moteur de requêtes Athena et dans la version 3.0 ou ultérieure de Glue. Pour en savoir plus, lisez le blog et consultez la documentation relative au crawler AWS Glue.