Publié le: Oct 15, 2021
AWS Glue inclut des analyseurs, une fonctionnalité qui facilite la découverte de jeux de données en analysant les données dans Amazon S3 et les bases de données relationnelles, en extrayant leur schéma et en remplissant le catalogue de données AWS Glue, pour des métadonnées à jour. Ils réduisent les délais d'obtention des informations en rendant les données nouvellement intégrées rapidement disponibles pour analyse avec vos outils d'analytique et de machine learning favoris.
Lors de la configuration de l'analyseur AWS Glue pour découvrir des données dans Amazon S3, vous pouvez choisir entre une analyse complète dans laquelle tous les objets dans un chemin donné sont traités à chaque analyse, ou une analyse incrémentale dans laquelle seuls les objets d'un dossier nouvellement ajouté sont traités. L'analyse complète s'avère utile lorsque les modifications d'une table sont non déterminantes et peuvent affecter tous les objets ou partitions. L'analyseur progressif est pratique quand de nouveaux dossiers, ou partitions, sont ajoutés à la table. Pour les tables volumineuses et modifiées fréquemment, le mode d'indexation de site web progressive peut être amélioré afin de réduire les délais de l'analyseur pour déterminer quels objets ont été modifiés.
Aujourd'hui, nous lançons la prise en charge par les analyseurs AWS Glue des notifications d'événement Amazon S3 comme source pour mettre à jour progressivement les tables de catalogue de données d'AWS Glue. Les clients pourront configurer des notifications d'événement Amazon S3 à envoyer à une file d'attente Amazon Simple Queue Service (SQS), que l'analyseur utilisera pour identifier les nouveaux objets ou supprimés. À chaque analyse, l'analyseur inspecte la file d'attente SQS à la recherche de nouveaux événements. S'il n'en trouve aucun, l'analyseur s'arrête. S'il en détecte dans la file d'attente, il inspectera leurs dossiers respectifs et traitera les nouveaux objets. Ce nouveau mode réduit les coûts et les délais nécessaires à un analyseur pour mettre à jour les tables volumineuses et modifiées fréquemment.
La prise en charge par l'analyseur AWS Glue des notifications d'événement Amazon S3 est disponible dans toutes les régions où AWS Glue est proposé. Pour plus de détails, veuillez vous reporter au tableau des régions AWS. Pour en savoir plus, consultez la documentation de l'analyseur AWS Glue.