Publicado: Oct 13, 2021
O Amazon Virtual Public Cloud (VPC) está disponibilizando três novos recursos para tornar mais rápido, fácil e econômico armazenar e executar análises no Amazon VPC Flow Logs. Primeiro, o VPC Flow Logs agora pode ser entregue ao Amazon S3 no formato de arquivo Apache Parquet. Segundo, ele pode ser armazenado no S3 com prefixos compatíveis com Hive. E terceiro, VPC Flow Logs podem ser entregues como arquivos particionados por hora. Todos esses recursos estão disponíveis quando você escolhe S3 como o destino para VPC Flow Logs.
As consultas em VPC Flow Logs armazenados no formato Apache Parquet são mais eficientes como resultado do formato colunar compacto dos arquivos Parquet. Além disso, você pode economizar em custos de consulta usando ferramentas como Amazon Athena e Amazon Elastic Map Reduce (EMR), já que suas consultas são executadas com mais rapidez e precisam escanear um volume menor de dados usando arquivos Parquet. Você pode economizar até 25% em custos de armazenamento do S3 devido à melhor compactação dos arquivos formatados em Parquet e eliminar a necessidade de construir e gerenciar uma aplicação de conversão Apache Parquet. Os prefixos compatíveis com Hive tornam mais fácil descobrir e carregar novos dados em suas ferramentas Hive, e os arquivos de log particionados por hora tornam mais eficiente consultar logs em intervalos de tempo específicos.
Para começar, crie uma nova assinatura de VPC Flow Log com S3 como destino e especifique as opções de entrega do formato Parquet, prefixos compatíveis com Hive e/ou arquivos particionados por hora. Essa funcionalidade está disponível por meio do Console de Gerenciamento do Amazon Web Services, da Interface de Linha de Comando da Amazon (Amazon CLI) e do Kit de Desenvolvimento de Software da Amazon (Amazon SDK). Para saber mais, consulte a documentação e leia a publicação do blog. Consulte a página de preço do CloudWatch Logs para saber sobre o preços de entrega de log no formato Apache Parquet para VPC Flow Logs.