Publicado: Oct 14, 2022
O AWS Glue inclui crawlers baseados no Amazon S3 Event Notifications, um recurso que facilita a descoberta de conjuntos de dados verificando apenas os dados baseados em eventos no Amazon S3. O Glue Crawler extrai o esquema de dados e preenche automaticamente o Catálogo de Dados do AWS Glue para manter os metadados atualizados. O crawling de conjuntos de dados baseado em eventos do S3 acelera a obtenção de insights, disponibilizando rapidamente dados recém-ingeridos para análises em suas ferramentas favoritas de análises e machine learning.
Hoje, estamos ampliando o suporte ao crawling incremental e à atualização de tabelas de catálogo criadas por métodos não associados a crawlers, como chamadas de API executadas dentro de pipelines de dados. Com esse recurso, o crawling incremental já pode ser transferido de pipelines de dados para o Glue Crawler agendado, reduzindo os crawls aos eventos incrementais do S3.
Para utilizar o crawling incremental, os clientes podem configurar o envio de Amazon S3 Event Notifications para uma fila do Amazon Simple Queue Service (SQS). Em seguida, os clientes podem usar a fila do SQS como fonte para identificar mudanças e agendar ou executar o Glue Crawler com tabelas do Catálogo de Dados do Glue como destino. Com cada execução do crawler, a fila do SQS é inspecionada em busca de novos eventos. Se nenhum for encontrado, o crawler será interrompido. Quando eventos são encontrados na fila, o crawler inspeciona suas respectivas pastas e processos usando classificadores incorporados (para CSV, JSON, AVRO, XML etc.) e determina as mudanças. O crawler atualiza então o Catálogo de Dados do Glue com novas informações, como partições ou colunas recentemente adicionadas ou excluídas. Esse recurso reduz o custo e o tempo de crawling de dados volumosos e frequentemente alterados do Amazon S3.
Ele está disponível em todas as regiões comerciais em que o AWS Glue é oferecido. Consulte a tabela de regiões da AWS. Para saber mais, leia o blog e consulte a documentação do AWS Glue Crawler.