Publié le: Dec 4, 2018
Les clients peuvent désormais obtenir les rapports Amazon S3 Inventory au format de fichier Apache Parquet. Amazon S3 Inventory fournit des listes d’objets de fichiers plats et des métadonnées sélectionnées pour vos préfixes partagés ou de compartiment. Vous pouvez utiliser S3 Inventory pour lister, auditer et faire des rapports sur le statut de vos objets ou simplifier et accélérer les flux de travail d’entreprise ainsi que les tâches de Big Data.
Parquet est un format de fichier de stockage en colonnes, comme ORC (Optimized Row Columnar), qui est disponible pour tout projet dans l’écosystème Hadoop quel que soit le choix du framework de traitement ou du modèle des données ou du langage de programmation. Le format en colonnes vous permet de lire, décompresser et traiter uniquement les colonnes nécessaires pour traiter la requête actuelle. Pour les requêtes S3 Inventory des services AWS comme Amazon Athena ou Amazon Redshift Spectrum, ou des outils comme Apache Hive, Spark, HBase ou Presto, il est recommandé de configurer votre rapport S3 Inventory soit en Parquet soit en ORC pour des interrogations plus rapides et des coûts de requêtes plus bas.
Le format Parquet pour S3 Inventory est disponible dans toutes les régions commerciales de AWS et de AWS Govcloud. Vous pouvez aller sur AWS Management Console ou utiliser l’API S3, CLI ou SDK pour configurer votre S3 Inventory.