Descoberta de dados

Faça descobertas e pesquisas em todos os conjuntos de dados da AWS

O catálogo de dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente da localização. O catálogo de dados contém definições de tabelas e trabalhos, esquemas e outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de esquemas abrangente para que você possa compreender como os dados mudam com o tempo.

Descoberta automática de esquemas

Os crawlers do AWS Glue se conectam ao datastore de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o esquema dos dados e cria metadados no catálogo de dados do AWS Glue. Os metadados são armazenados em tabelas no catálogo de dados e são utilizados no processo de autoria de trabalhos de ETL. Você pode executar crawlers de forma programada, sob demanda, ou acionando-os com base em um evento para garantir a atualização dos metadados.

Gerencie e aplique esquemas nos fluxos de dados

O AWS Glue Schema Registry, um recurso sem servidor do AWS Glue, permite validar e controlar a evolução dos dados de streaming usando esquemas Apache Avro registrados, sem custo adicional. Por meio de serializadores e desserializadores licenciados pelo Apache, o Schema Registry se integra a aplicações Java desenvolvidas para o Apache Kafka,Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink e AWS Lambda. Quando as aplicações de streaming de dados são integradas ao Schema Registry, é possível melhorar a qualidade dos dados e se proteger de mudanças inesperadas usando verificações de compatibilidade que controlam a evolução do esquema. E mais, você pode criar ou atualizar as tabelas e as partições do AWS Glue usando os esquemas armazenados no registro.

Transformação de dados

Transforme os dados visualmente com uma interface do tipo arrastar e soltar

O AWS Glue Studio permite criar trabalhos ETL altamente escalonáveis para o processamento distribuído sem ser especialista em Apache Spark. Defina o processo ETL no editor de tarefas de arrastar e soltar e o AWS Glue gerará automaticamente o código para extrair, transformar e carregar seus dados. O código é gerado em Scala ou Python e escrito para o Apache Spark.

Crie pipelines ETL complexos com um agendamento simples de trabalhos

Os trabalhos do AWS Glue podem ser chamados por agendamento, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre tarefas para criar pipelines de ETL complexos. O AWS Glue processa todas as dependências entre tarefas, filtra dados inválidos e tenta executar novamente as tarefas que apresentam falha. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central.

Limpe e transforme os dados de streaming em trânsito

Os trabalhos ETL de streaming sem servidor no AWS Glue consomem dados continuamente de fontes de streaming, incluindo o Amazon Kinesis e o Amazon MSK, são limpos e transformados em trânsito, e disponibilizados para análise em segundos em seu armazenamento de dados de destino. Use esse recurso para processar dados de eventos como streams de eventos da IoT, sequências de cliques e logs da rede. Os trabalhos ETL de streaming do AWS Glue podem enriquecer e agregar dados, unir fontes em lote e de streaming, e fazer diversas operações complexas de análise de dados e machine learning.

Replicação de dados

Combine e replique dados entre vários armazenamentos de dados usando SQL

O AWS Glue Elastic Views permite criar exibições dos dados armazenados em vários tipos de armazenamentos de dados AWS e materializar as exibições em um armazenamento de dados de destino de sua preferência. Você pode usar o AWS Glue Elastic Views para criar exibições materializadas escrevendo consultas em PartiQL. O PartiQL é uma linguagem de consulta compatível com SQL e de fonte aberta que você pode usar para consultar e manipular dados, não importando se eles têm uma estrutura de documento em tabela ou flexível. Você pode escrever consultas PartiQL de modo interativo usando o editor de consulta no Console de Gerenciamento da AWS ou publicar consultas por meio da API ou da CLI.

O AWS Glue Elastic Views é compatível com o Amazon DynamoDB como origem (com suporte para o Amazon Aurora e Amazon RDS a seguir) e com o Amazon Redshift, Amazon OpenSearch Service (sucessor do Amazon Elasticsearch Service) e Amazon S3 como destinos (com suporte para o Amazon Aurora, Amazon RDS e Amazon DynamoDB a seguir). É possível agilizar o tempo de desenvolvimento compartilhando suas exibições materializadas para que outros usuários utilizem em suas aplicações. O AWS Glue Elastic Views monitora continuamente as alterações nos dados nos seus armazenamentos de dados de origem e fornece atualizações para seus armazenamentos de dados de destino automaticamente. Saiba mais sobre o AWS Glue Elastic Views.

Preparação dos dados

Acabe com a duplicação e limpe os dados com o machine learning integrado

O AWS Glue ajuda a limpar e preparar seus dados para análise sem que você precise ser especialista em machine learning. O recurso FindMatches deduplica e encontra registros que são correspondências imperfeitas entre si. Por exemplo, use FindMatches para encontrar registros duplicados em seu banco de dados de restaurantes, como quando um registro lista "Joe's Pizza" no endereço "121 Main St." e outro mostra "Joseph's Pizzeria" no endereço"121 Main". O recurso FindMatches apenas solicitará que você rotule os conjuntos de registros como "correspondência" ou "não correspondência". O sistema então aprenderá seus critérios para chamar um par de registros de "correspondência" e criará um trabalho de ETL que pode ser usado para encontrar registros duplicados em um banco de dados ou registros correspondentes em dois bancos de dados.

Edite, depure e teste o código ETL com endpoints do desenvolvedor

Se você optar por desenvolver interativamente o código de ETL, o AWS Glue fornecerá endpoints de desenvolvimento para editar, depurar e testar o código gerado para você. Você pode usar sua IDE ou seu bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para tarefas de ETL do AWS Glue como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em nosso repositório do GitHub.

Normalize os dados sem código usando uma interface visual

O AWS Glue DataBrew fornece uma interface visual interativa e do tipo apontar e clicar para usuários como analistas e cientistas de dados, para que limpem e normalizem dados sem escrever código. É fácil visualizar, limpar e normalizar os dados diretamente dos seus data lake, data warehouses e bancos de dados, incluindo o Amazon S3, o Amazon Redshift, o Amazon Aurora e o Amazon RDS. Você pode escolher entre mais de 250 transformações integradas para combinar, girar e migrar os dados, além de automatizar tarefas de preparação de dados aplicando as transformações salvas diretamente nos novos dados recebidos.

Definição de preço do AWS Glue
Acesse a página de definição de preço

Explore as opções de definição de preço do AWS Glue.

Saiba mais 
Cadastre-se para obter uma conta da AWS
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Comece a criar no console
Comece a criar no console

Comece a criar com o AWS Glue no Console de Gerenciamento da AWS.

Faça login