Publié le: Oct 14, 2022
AWS Glue inclut des crawlers basés sur les notifications d'événements Amazon S3, une fonctionnalité qui simplifie la découverte de jeux de données en analysant uniquement les données basées sur des événements dans Amazon S3. Le crawler Glue extrait le schéma de données et alimente automatiquement le catalogue de données AWS Glue, qui maintient les métadonnées à jour. En analysant les jeux de données sur la base des événements S3, cela réduit les délais d'obtention des informations en rendant les données nouvellement intégrées rapidement disponibles pour analyse avec vos outils d'analytique et de machine learning favoris.
Nous étendons aujourd'hui cette prise en charge à l'analyse incrémentielle et à la mise à jour des tables de catalogue créées par des méthodes non-crawler, telles que les appels d'API exécutés dans les pipelines de données. Grâce à cette fonctionnalité, l'analyse incrémentielle peut désormais être déchargée des pipelines de données vers le crawler Glue programmé, réduisant les analyses à des événements S3 incrémentiels.
Pour réaliser une analyse incrémentielle, les clients peuvent configurer les notifications d'événements Amazon S3 de sorte qu'elles soient envoyées à une file d'attente Amazon Simple Queue Service (SQS). Les clients peuvent alors utiliser la file d'attente SQS comme source pour identifier les changements et peuvent programmer ou exécuter un crawler Glue avec les tables de catalogue de données Glue en tant que cible. À chaque exécution du crawler, la file d'attente SQS est inspectée à la recherche de nouveaux événements. Si aucun nouvel événement n'est trouvé, le crawler s'arrête. Si des événements sont trouvés dans la file d'attente, le crawler inspecte leurs dossiers respectifs, les traite au moyen de classificateurs intégrés (pour CSV, JSON, AVRO, XML, etc.) et détermine les changements. Le crawler met ensuite à jour le catalogue de données Glue avec les nouvelles informations, telles que les partitions ou les colonnes nouvellement ajoutées ou supprimées. Cette fonctionnalité permet de réduire le coût et le temps nécessaires à l'analyse de données Amazon S3 volumineuses et fréquemment modifiées.
Cette fonctionnalité est proposé dans toutes les régions commerciales où AWS Glue est disponible (voir tableau des régions AWS). Pour en savoir plus, lisez le blog et consultez la documentation relative aux crawlers AWS Glue.