Publicado: Oct 15, 2021
O AWS Glue inclui crawlers, um recurso que torna a descoberta de conjuntos de dados mais simples, digitalizando dados no Amazon S3 e bancos de dados relacionais, extraindo seu esquema e preenchendo automaticamente o Catálogo de dados do AWS Glue, que mantém os metadados atualizados. Isso reduz o tempo de insight, tornando os dados recém-ingeridos rapidamente disponíveis para análise com suas ferramentas favoritas de análise e machine learning.
Ao configurar o crawler do AWS Glue para descobrir dados no Amazon S3, você pode escolher entre uma verificação completa, onde todos os objetos em um determinado caminho são processados sempre que o crawler for executado, ou verificação incremental, onde apenas os objetos em uma pasta recém-adicionada são processado. A verificação completa é útil quando as alterações na tabela não são determinísticas e podem afetar qualquer objeto ou partição. O crawl incremental é útil quando novas partições ou pastas são adicionadas à tabela. Para tabelas grandes que são alteradas com frequência, o modo de crawling incremental pode ser aprimorado para reduzir o tempo que o rastreador leva para determinar quais objetos foram alterados.
Hoje estamos lançando o suporte para as Notificações de eventos do Amazon S3 como uma fonte para os crawlers do AWS Glue atualizarem incrementalmente as tabelas do Catálogo de dados do AWS Glue. Os clientes poderão configurar as Notificações de eventos do Amazon S3 para serem enviadas a uma fila do Amazon Simple Queue Service (SQS), que o crawler usará para identificar os objetos recém-adicionados ou excluídos. Com cada execução do crawler, a fila SQS é inspecionada em busca de novos eventos; se nenhum for encontrado, o crawler é interrompido. Se forem encontrados eventos na fila, o crawler inspecionará suas respectivas pastas e processará os novos objetos. Este novo modo reduz o custo e o tempo que um crawler precisa para atualizar tabelas grandes e que são alteradas com frequência.
O suporte ao crawler do WS Glue para Notificações de eventos do Amazon S3 está disponível em todas as regiões onde o AWS Glue está disponível. Consulte a Tabela de regiões da AWS. Para saber mais, acesse a documentação do crawler do AWS Glue.