Catálogo de dados integrado

O catálogo de dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente de sua localização. O catálogo de dados contém definições de tabelas e de trabalhos, além de outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de esquemas abrangente para que você possa compreender como os dados mudam com o tempo.

Descoberta automática de esquemas

Os crawlers do AWS Glue se conectam ao datastore de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o esquema dos dados e cria metadados no catálogo de dados do AWS Glue. Os metadados são armazenados em tabelas no catálogo de dados e são utilizados no processo de autoria de trabalhos de ETL. Você pode executar crawlers de acordo com uma programação, sob demanda ou acionando-os por meio de triggers baseados em um evento para garantir a atualização dos metadados.

Geração de código

O AWS Glue gera automaticamente o código para extrair, transformar e carregar dados. Basta apontar a fonte e o destino dos dados para o AWS Glue, que cria scripts de ETL para transformar, nivelar e aprimorar os dados. O código é gerado em Scala ou Python para o Apache Spark.

Limpar e deduplicar dados

A AWS Glue ajuda a limpar e preparar seus dados para análise, fornecendo uma Transformação de Machine Learning chamada FindMatches para deduplicação e localização de registros correspondentes. Por exemplo, use os FindMatches do AWS Lake Formation para encontrar registros duplicados em seu banco de dados de restaurantes, como quando um registro lista "Joe's Pizza" em "121 Main St." e outro mostra uma "Joseph's Pizzeria" em "121 Main". Você não precisa saber nada sobre machine learning para fazer isso. FindMatches apenas solicitará que você rotule conjuntos de registros como "correspondência" ou "não correspondência". O sistema então aprenderá seus critérios para chamar um par de registros de "correspondência" e criará uma Transformação ML que você pode usar para encontrar registros duplicados em um banco de dados ou registros correspondentes em dois bancos de dados.

Endpoints de desenvolvedor

Se você optar por desenvolver interativamente o código de ETL, o AWS Glue fornecerá endpoints de desenvolvimento para editar, depurar e testar o código gerado para você. Você pode usar sua IDE ou seu bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para tarefas de ETL do AWS Glue como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em um repositório do GitHub.

Programador de trabalhos flexível

Os trabalhos do AWS Glue podem ser invocados de acordo com uma programação, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre tarefas para criar pipelines de ETL complexos. O AWS Glue processa todas as dependências entre tarefas, filtra dados inválidos e tenta executar novamente as tarefas que apresentam falha. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Acesse a página de definição de preço

Explore as opções de definição de preço do AWS Glue.

Saiba mais 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a criar com o AWS Glue no Console de Gerenciamento da AWS.

Fazer login