Publicado en: Dec 4, 2018
Los clientes ahora pueden obtener informes de Amazon S3 Inventory en formato de archivo Apache Parquet. Amazon S3 Inventory proporciona listas de archivos sin formato de objetos y metadatos seleccionados para su bucket o prefijos compartidos. Puede usar S3 Inventory para enumerar, auditar e informar sobre el estado de los objetos, o para simplificar y acelerar los flujos de trabajo de negocios y los trabajos de big data.
Parquet es un formato de archivo de almacenamiento en columnas, similar a ORC (foptimized row-columnar) y está disponible para cualquier proyecto en el ecosistema de Hadoop, independientemente de la elección del marco de procesamiento de datos, el modelo de datos o el lenguaje de programación. El formato en columnas permite leer, descomprimir y procesar solo las columnas necesarias para la consulta actual. Para consultar S3 Inventory con servicios de AWS como Amazon Athena o Amazon Redshift Spectrum, o herramientas como Apache Hive, Spark, HBase o Presto, recomendamos configurar su informe de S3 Inventory en formato Parquet u ORC para lograr un rendimiento de consultas más veloz y menores costos asociados a ellas.
El formato Parquet para S3 Inventory está disponible en todas las regiones comerciales de AWS y AWS GovCloud. Visite la consola de administración de AWS para comenzar o utilice la API, la CLI o el SDK de S3 para establecer la configuración de S3 Inventory.