O AWS Glue é um serviço de extração, transformação e carga (ETL) totalmente gerenciado que pode ser usado para catalogar, limpar, aprimorar e movimentar de forma confiável dados entre datastores. Com o AWS Glue, você pode reduzir consideravelmente o custo, a complexidade e o tempo necessários para criar trabalhos de ETL. O AWS Glue é um serviço sem servidor. Portanto, não é necessário configurar ou gerenciar infraestrutura. Você paga apenas pelos recursos consumidos durante a execução dos trabalhos.

Você está pronto para iniciar o seu ETL?

Comece a usar o AWS Glue
100x100_benefit_ingergration

O catálogo de dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente de sua localização. O catálogo de dados contém definições de tabelas e de trabalhos, além de outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de schemas abrangente para que você possa compreender como os dados mudam com o tempo.

100x100_benefit_automated

Os crawlers do AWS Glue se conectam ao datastore de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o schema dos dados e cria metadados no catálogo de dados do AWS Glue. Os metadados são armazenados em tabelas no catálogo de dados e são utilizados no processo de autoria de trabalhos de ETL. Você pode executar crawlers de acordo com uma programação, sob demanda ou acionando-os por meio de triggers baseados em um evento para garantir a atualização dos metadados.

100x100_benefit_code

O AWS Glue gera automaticamente o código para extrair, transformar e carregar dados. Basta apontar a fonte e o destino dos dados para o Glue, que cria scripts de ETL para transformar, nivelar e aprimorar os dados. O código é gerado em Python para o ambiente Apache Spark 2.1.

100x100_benefit_tools

Se você optar por desenvolver interativamente o código de ETL, o Glue fornece endpoints de desenvolvimento para editar, depurar e testar o código gerado pelo serviço. Você pode usar sua IDE ou seu bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para trabalhos de ETL como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em um repositório do GitHub.

100x100_benefit_monitoring-logging

Os trabalhos do AWS Glue podem ser invocados de acordo com uma programação, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre trabalhos para criar pipelines de ETL complexos. O Glue processa todas as dependências entre trabalhos, filtra dados inválidos e tenta executar novamente os trabalhos que apresentam falha. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central.

É fácil começar a usar o AWS Glue. Basta fazer o login no Console de Gerenciamento da AWS e navegar até "Glue" na categoria "Analytics".

Pronto para iniciar o ETL?

Comece a usar o AWS Glue