Publicado: Dec 4, 2018
Agora, os clientes podem obter relatórios do Amazon S3 Inventory no formato de arquivo do Apache Parquet. O Amazon S3 Inventory fornece listas de arquivos simples de objetos e metadados selecionados para bucket ou prefixos compartilhados. É possível usar o S3 Inventory para listar, auditar e gerar relatórios sobre o status dos objetos ou para simplificar e acelerar fluxos de trabalho empresariais e tarefas de big data.
O Parquet é um formato de arquivo de armazenamento colunar, semelhante ao ORC (linha colunar otimizada) e está disponível para qualquer projeto no ecossistema Hadoop, independentemente da escolha da estrutura de processamento de dados, modelo de dados ou linguagem de programação. O formato colunar permite ler, descompactar e processar apenas as colunas necessárias para a consulta atual. Para consultar o S3 Inventory com os serviços da AWS, como o Amazon Athena ou o Amazon Redshift Spectrum, ou ferramentas, como Apache Hive, Spark, HBase ou Presto, recomendamos configurar o relatório do S3 Inventory em Parquet ou ORC, a fim de obter a performance de consulta mais rápida e menores custos de consulta.
O formato Parquet para o S3 Inventory está disponível em todas as regiões comerciais da AWS e da AWS GovCloud. Você pode começar a usar visitando o Console de Gerenciamento da AWS ou usando a API, a CLI ou o SDK do S3 para definir a configuração do S3 Inventory.