Comment empêcher l'analyseur AWS Glue de créer plusieurs tables ?

Date de la dernière mise à jour : 31/10/2019

Pourquoi l'analyseur AWS Glue crée-t-il plusieurs tables à partir de mes données sources, et comment éviter que cela ne se produise ?

Brève description

L'analyseur AWS Glue crée plusieurs tables lorsque vos données sources n'utilisent pas le ou la même :

  • Format (tel que CSV, Parquet ou JSON)
  • Type de compression (par exemple, SNAPPY, gzip ou bzip2)
  • Schéma

Solution

Vérifiez les journaux de l'analyseur pour identifier les fichiers qui entraînent la création de plusieurs tables par l'analyseur :

1.    Ouvrez la console AWS Glue.

2.    Dans le volet de navigation, sélectionnez Crawlers (Analyseurs).

3.    Cliquez sur le lien Logs (Journaux) pour afficher les journaux de la console Amazon CloudWatch.

4.    Si AWS Glue a créé plusieurs tables lors de la dernière exécution de l'analyseur, le journal inclut des entrées comme suit :

[439d6bb5-ce7b-4fb7-9b4d-805346a37f88]
 INFO : Created table 
2_part_00000_24cab769_750d_4ef0_9663_0cc6228ac858_c000_snappy_parquet in
 database glue
[439d6bb5-ce7b-4fb7-9b4d-805346a37f88]
 INFO : Created table 
2_part_00000_3518b196_caf5_481f_ba4f_3e968cbbdd67_c000_snappy_parquet in
 database glue
[439d6bb5-ce7b-4fb7-9b4d-805346a37f88]
 INFO : Created table 
2_part_00000_6d2fffc2_a893_4531_89fa_72c6224bb2d6_c000_snappy_parquet in
 database glue

Ces fichiers sont ceux qui entraînent la création de plusieurs tables par l'analyseur. Pour éviter que cela ne se produise :

  • Vérifiez que ces fichiers utilisent le même schéma, le même format et le même type de compression que le reste de vos données sources. Si certains fichiers utilisent des schémas différents (par exemple, le schéma A indique que le champ X est de type INT et le schéma B indique que le champ X est de type BOOL), exécutez une tâche ETL AWS Glue pour transformer les types de données anormaux en types de données corrects ou les plus courants de votre source. Sinon, utilisez Amazon Athena pour créer manuellement la table à l'aide de la table DDL existante, puis exécutez un analyseur AWS Glue pour mettre à jour les métadonnées de la table.
  • Si vos données ont des schémas différents mais similaires, vous pouvez combiner des schémas compatibles lorsque vous créez l'analyseur. Sur la page Configure the crawler output (Configurer la sortie de l'analyseur), sous Grouping behavior for S3 data (optional) (Regrouper le comportement des données S3 (facultatif), sélectionnez Create a single schema for each S3 path (Créer un schéma unique pour chaque chemin S3). Lorsque ce paramètre est activé et que les données sont compatibles, l'analyseur ignore la similarité des schémas spécifiques lors de l'évaluation des objets Amazon S3 dans le chemin d'inclusion spécifié. Pour plus d'informations, consultez la rubrique Comment créer un schéma unique pour chaque chemin d'inclusion Amazon S3.
  • Lorsque vous utilisez des données CSV, veillez à utiliser les en-têtes de manière cohérente. Si certains de vos fichiers ont des en-têtes et d'autres non, l'analyseur crée plusieurs tables.

Cet article vous a-t-il été utile ?

Cette page peut-elle être améliorée ?


Vous avez besoin d'aide ?