O AWS Glue é um serviço de integração de dados escalável e com tecnologia sem servidor que facilita a descoberta, preparação, movimentação e integração de dados de várias fontes para análise, machine learning e desenvolvimento de aplicações. O AWS Glue oferece todos os recursos necessários para a integração dos dados, então é possível ter insights e usar seus dados em minutos, em vez de meses. Com o AWS Glue, não existe nenhuma infraestrutura a configurar ou gerenciar. Você paga apenas pelos recursos consumidos durante a execução dos trabalhos.
Descubra
Faça descobertas e pesquisas em todos os conjuntos de dados da AWS
O catálogo de dados do AWS Glue é um armazenamento persistente de metadados para todos os ativos de dados, independentemente da localização. O catálogo de dados contém definições de tabelas e trabalhos, esquemas e outras informações de controle que ajudam a gerenciar o ambiente do AWS Glue. Ele calcula estatísticas e registra partições de forma automática, possibilitando consultas de dados com eficiência e economia. Além disso, ele mantém um histórico de versões de esquemas abrangente para que você possa compreender como os dados mudam com o tempo.
Descoberta automática de esquemas
Os crawlers do AWS Glue se conectam ao datastore de origem ou de destino, percorrem uma lista priorizada de classificadores para determinar o esquema dos dados e cria metadados no catálogo de dados do AWS Glue. Os metadados são armazenados em tabelas no catálogo de dados e são utilizados no processo de autoria de trabalhos de ETL. Você pode executar crawlers de forma programada, sob demanda, ou acionando-os com base em um evento para garantir a atualização dos metadados.
Gerencie e aplique esquemas nos fluxos de dados
O AWS Glue Schema Registry, um recurso sem servidor do AWS Glue, permite validar e controlar a evolução dos dados de streaming usando esquemas Apache Avro registrados, sem custo adicional. Por meio de serializadores e desserializadores licenciados pelo Apache, o Schema Registry se integra a aplicações Java desenvolvidas para o Apache Kafka,Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink e AWS Lambda. Quando as aplicações de streaming de dados são integradas ao Schema Registry, é possível melhorar a qualidade dos dados e se proteger de mudanças inesperadas usando verificações de compatibilidade que controlam a evolução do esquema. E mais, você pode criar ou atualizar as tabelas e as partições do AWS Glue usando os esquemas armazenados no registro.
Dimensione automaticamente com base na workload
A escalabilidade automática no AWS Glue, um recurso sem servidor no AWS Glue, aumenta e reduz a escala os recursos dinamicamente na vertical com base na workload. Com a escalabilidade automática, seu trabalho é atribuído a operadores somente quando necessário. À medida que o trabalho avança e passa por transformações avançadas, o AWS Glue adiciona e remove recursos dependendo do quanto é possível dividir a workload. Você não precisa mais se preocupar com o provisionamento excessivo de recursos, gastar tempo otimizando o número de operadores ou pagar por recursos ociosos.
Preparar
Acabe com a duplicação e limpe os dados com o machine learning integrado
O AWS Glue ajuda a limpar e preparar seus dados para análise sem que você precise ser especialista em machine learning. O recurso FindMatches deduplica e encontra registros que são correspondências imperfeitas entre si. Por exemplo, use FindMatches para encontrar registros duplicados em seu banco de dados de restaurantes, como quando um registro lista "Joe's Pizza" no endereço "121 Main St." e outro mostra "Joseph's Pizzeria" no endereço"121 Main". O recurso FindMatches apenas solicitará que você rotule os conjuntos de registros como "correspondência" ou "não correspondência". O sistema então aprenderá seus critérios para chamar um par de registros de "correspondência" e criará um trabalho de ETL que pode ser usado para encontrar registros duplicados em um banco de dados ou registros correspondentes em dois bancos de dados.
Edite, depure e teste o código ETL com endpoints do desenvolvedor
Se você optar por desenvolver interativamente o código de ETL, o AWS Glue fornecerá endpoints de desenvolvimento para editar, depurar e testar o código gerado para você. Você pode usar sua IDE ou seu bloco de anotações favorito. Leitores, gravadores ou transformações personalizados podem ser criados e importados para tarefas de ETL do AWS Glue como bibliotecas personalizadas. Também é possível usar e compartilhar código com outros desenvolvedores em nosso repositório do GitHub.
Normalize os dados sem código usando uma interface visual
O AWS Glue DataBrew fornece uma interface visual interativa e do tipo apontar e clicar para usuários como analistas e cientistas de dados, para que limpem e normalizem dados sem escrever código. É fácil visualizar, limpar e normalizar os dados diretamente dos seus data lake, data warehouses e bancos de dados, incluindo o Amazon S3, o Amazon Redshift, o Amazon Aurora e o Amazon RDS. Você pode escolher entre mais de 250 transformações integradas para combinar, girar e migrar os dados, além de automatizar tarefas de preparação de dados aplicando as transformações salvas diretamente nos novos dados recebidos.
Defina, detecte e corrija dados sigilosos
O AWS Glue Sensitive Data Detection permite definir, identificar e processar dados sigilosos em seu pipeline de dados e em seu data lake. Uma vez identificados, você pode corrigir dados sigilosos editando, substituindo ou relatando dados de Personally Identifiable Information (PII – Informações de identificação pessoal) e outros tipos de dados considerados sigilosos. O AWS Glue Sensitive Data Detection simplifica a identificação e o mascaramento de dados sigilosos, incluindo PII, como nome, SSN, endereço, e-mail e carteira de motorista.
Escalar o código Python existente com Ray (previsualização)
Desenvolvedores gostam do Python por sua facilidade de uso e rica coleção de bibliotecas de processamento de dados integradas. Eles querem usar o tipo primitivo familiar do Python para processar grandes conjuntos de dados. O AWS Glue para Ray ajuda os engenheiros de dados a processar grandes conjuntos de dados usando Python e bibliotecas Python bem conhecidas. O AWS Glue para Ray usa o Ray.io, uma estrutura de computação unificada de código aberto que ajuda a escalar as workloads do Python de um único nó para centenas de nós. O AWS Glue para Ray usa a tecnologia sem servidor, portanto não infraestrutura para gerenciar.
Criar transformações visuais personalizadas
O AWS Glue ajuda a criar transformações visuais personalizadas para que você possa definir, reutilizar e compartilhar a lógica ETL. Com as transformações visuais personalizadas do AWS Glue, os engenheiros de dados podem escrever e compartilhar a lógica Apache Spark específica do negócio, reduzindo a dependência dos desenvolvedores do Spark e tornando mais simples manter os trabalhos de ETL atualizados. Essas transformações estão disponíveis para todos os trabalhos em sua conta da AWS, sejam visuais ou baseados em código.
Integrar
Simplifique o desenvolvimento do trabalho de integração de dados
O AWS Glue Interactive Sessions, um recurso sem servidor de desenvolvimento de trabalhos, simplifica o desenvolvimento de trabalhos de integração de dados. O AWS Glue Interactive Sessions permite que os engenheiros de dados explorem e preparem os dados de modo interativo. Os engenheiros podem explorar, experimentar e processar dados interativamente usando o IDE ou notebook de sua escolha.
Notebooks de trabalho integrados
O AWS Glue Studio Job Notebooks fornece cadernos sem servidor com configuração mínima no AWS Glue Studio para que os desenvolvedores possam dar os primeiros passos rapidamente. O Glue Studio Job Notebooks oferece uma interface interativa para o AWS Glue Interactive Sessions e permite que os usuários salvem e programem o código do notebook como trabalhos do AWS Glue.
Crie pipelines ETL complexos com um agendamento simples de trabalhos
Os trabalhos do AWS Glue podem ser chamados por agendamento, sob demanda ou com base em um evento. É possível iniciar vários trabalhos em paralelo ou especificar dependências entre tarefas para criar pipelines de ETL complexos. O AWS Glue processa todas as dependências entre tarefas, filtra dados inválidos e tenta executar novamente as tarefas que apresentam falha. Todos os logs e notificações são enviados ao Amazon CloudWatch para que você possa monitorar e obter alertas em um serviço central.
Aplique e implante as práticas recomendadas de DevOps com integração Git
O AWS Glue se integra ao Git, o sistema de controle de versões de código aberto amplamente utilizado. É possível usar o GitHub e o AWS CodeCommit para manter um histórico de mudanças em trabalhos do AWS Glue e aplicar práticas de DevOps existentes para implantá-las. A integração do AWS Glue com o Git funciona para todos os tipos de trabalho do AWS Glue, tanto visuais quanto baseados em código. Ela inclui a integração com o GitHub e o AWS CodeCommit, além de simplificar o uso de ferramentas de automação, como Jenkins e AWS CodeDeploy, para implantar trabalhos do AWS Glue.
Reduza os custos para workloads não urgentes com a execução flexível de trabalhos
O AWS Glue Flex é uma nova classe de trabalho de execução flexível que permite reduzir o custo de suas workloads de integração de dados não urgentes (por exemplo, trabalhos de pré-produção, testes, carregamentos de dados etc.) em até 35%. O Glue agora tem duas classes de execução de trabalho: padrão e flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem inicialização rápida do trabalho e recursos dedicados. O Glue Flex é apropriado para trabalhos não sensíveis ao tempo, cujos horários de início e conclusão podem variar.
Ler, inserir, atualizar e excluir arquivos em seu data lake
O AWS Glue oferece suporte nativo a três estruturas de código aberto, incluindo Apache Hudi, Apache Iceberg e Linux Foundation Delta Lake. Esses frameworks ajudam a gerenciar dados de maneira transacionalmente consistente para uso em seu data lake baseado no Amazon Simple Storage Service (Amazon S3).
Forneça dados de alta qualidade em seus data lakes e pipelines (previsualização)
O AWS Glue Data Quality ajuda a melhorar a qualidade e a confiança de seus dados. Ele mede, monitora e gerencia automaticamente a qualidade dos dados em seus data lakes e pipelines. Ele também calcula estatísticas automaticamente, recomenda regras de qualidade, monitora e alerta você quando a qualidade se deteriora, facilitando a identificação de dados ausentes, obsoletos ou incorretos antes que eles afetem seus negócios.
Transformar
Transforme os dados visualmente com uma interface do tipo arrastar e soltar
O AWS Glue Studio permite criar trabalhos ETL altamente escalonáveis para o processamento distribuído sem ser especialista em Apache Spark. Defina o processo ETL no editor de tarefas de arrastar e soltar e o AWS Glue gerará automaticamente o código para extrair, transformar e carregar seus dados. O código é gerado em Scala ou Python e escrito para o Apache Spark.
Limpe e transforme os dados de streaming em trânsito
Os trabalhos ETL de streaming sem servidor no AWS Glue consomem dados continuamente de fontes de streaming, incluindo o Amazon Kinesis e o Amazon MSK, são limpos e transformados em trânsito, e disponibilizados para análise em segundos em seu armazenamento de dados de destino. Use esse recurso para processar dados de eventos como streams de eventos da IoT, sequências de cliques e logs da rede. Os trabalhos ETL de transmissão do AWS Glue podem enriquecer e agregar dados, unir fontes em lote e de transmissão, e fazer diversas operações complexas de análise de dados e machine learning.

Explore as opções de definição de preço do AWS Glue.

Obtenha acesso instantâneo ao nível gratuito da AWS.

Comece a criar com o AWS Glue no Console de Gerenciamento da AWS.