Catálogo de dados integrado

O catálogo de dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente de sua localização. O catálogo de dados contém definições de tabelas e de trabalhos, além de outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de esquemas abrangente para que você possa compreender como os dados mudam com o tempo.

Descoberta automática de esquemas

Os crawlers do AWS Glue se conectam ao datastore de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o esquema dos dados e cria metadados no catálogo de dados do AWS Glue. Os metadados são armazenados em tabelas no catálogo de dados e são utilizados no processo de autoria de trabalhos de ETL. Você pode executar crawlers de acordo com uma programação, sob demanda ou acionando-os por meio de triggers baseados em um evento para garantir a atualização dos metadados.

Geração de código

O AWS Glue gera automaticamente o código para extrair, transformar e carregar dados. Basta apontar a fonte e o destino dos dados para o AWS Glue, que cria scripts de ETL para transformar, nivelar e aprimorar os dados. O código é gerado em Scala ou Python para o Apache Spark.

Endpoints de desenvolvedor

Se você optar por desenvolver interativamente o código de ETL, o AWS Glue fornecerá endpoints de desenvolvimento para editar, depurar e testar o código gerado para você. Você pode usar sua IDE ou seu bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para tarefas de ETL do AWS Glue como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em um repositório do GitHub.

Programador de trabalhos flexível

Os trabalhos do AWS Glue podem ser invocados de acordo com uma programação, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre tarefas para criar pipelines de ETL complexos. O AWS Glue processa todas as dependências entre tarefas, filtra dados inválidos e tenta executar novamente as tarefas que apresentam falha. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central.

Saiba mais sobre a definição de preço do AWS Glue

Acesse a página de definição de preço
Pronto para criar?
Comece a usar o AWS Glue
Mais dúvidas?
Entre em contato conosco