AWS Glue

ETL simples, flexível e econômico

O AWS Glue é um serviço de extração, transformação e carga (ETL) gerenciado que facilita a preparação e a carga de dados para análises pelos clientes. Você pode criar e executar uma tarefa de ETL com apenas alguns cliques no Console de Gerenciamento da AWS. Basta indicar ao AWS Glue os dados armazenados na AWS que ele os descobre e armazena os metadados associados (ex.: definição e esquema de tabela) no AWS Glue Data Catalog. Uma vez catalogados, os dados são disponibilizados imediatamente para pesquisas, consultas e ETL. O AWS Glue gera o código para executar transformações de dados e processos de carregamento de dados.

O AWS Glue gera um código personalizável, reutilizável e portátil. Quando a tarefa de ETL estiver pronta, você poderá programá-la para que seja executada no ambiente Apache Spark gerenciado com aumento de escala horizontal do AWS Glue. O AWS Glue disponibiliza um programador flexível com resolução de dependências, monitoramento de tarefas e envio de alertas.

O AWS Glue não tem servidor, portanto não há infraestrutura para comprar, configurar nem gerenciar. Ele provisiona automaticamente o ambiente necessário para concluir a tarefa e os clientes pagam apenas pelos recursos de computação consumidos durante a execução dos trabalhos do ETL. Com o AWS Glue, os dados podem ser disponibilizados para análise em minutos.

Introducing AWS Glue (1min47s)

Benefícios

Fácil

O AWS Glue automatiza grande parte dos esforços de criação, manutenção e execução de tarefas de ETL. O AWS Glue executa o crawling de suas fontes de dados, identifica os formatos de dados e sugere esquemas e transformações. O AWS Glue gera automaticamente o código para executar transformações e processos de carregamento de dados.

Integrado

O AWS Glue é integrado com uma grande variedade de serviços da AWS, o que significa uma maior facilidade para começar a usar o serviço. O AWS Glue oferece suporte nativo a dados armazenados no Amazon Aurora e em todos os outros mecanismos do Amazon RDS, no Amazon Redshift e no Amazon S3, bem como em bancos de dados MySQL, Oracle, Microsoft SQL Server e PostgreSQL em uma Virtual Private Cloud (Amazon VPC) executada no Amazon EC2. O AWS Glue disponibiliza integração pronta para uso com os serviços Amazon Athena, Amazon EMR e Amazon Redshift Spectrum e também com qualquer aplicativo compatível com o Apache Hive Metastore.

Sem servidor

O AWS Glue não tem servidor. Não é necessário provisionar ou gerenciar a infraestrutura. O AWS Glue administra o provisionamento, a configuração e a escalabilidade dos recursos exigidos para executar tarefas de ETL em um ambiente Apache Spark gerenciado com aumento de escala horizontal. Você paga apenas pelos recursos usados durante a execução dos seus trabalhos.

Para desenvolvedores

O AWS Glue gera código ETL personalizável, reutilizável e portátil usando tecnologias conhecidas (Scala, Python e Apache Spark). Você também pode importar transformações, leitores e gravadores personalizados para o código ETL do Glue. Como o código do AWS Glue gerado baseia-se em estruturas abertas, não há bloqueio. Você pode usá-lo em qualquer local.

Como ele funciona

Selecione uma fonte e um destino de dados. O AWS Glue gerará código ETL em Scala ou Python para extrair dados da fonte, transformar os dados para que correspondam ao esquema de destino e carregá-los no destino. É possível editar, depurar e testar esse código por meio do console, do seu IDE favorito ou em qualquer notebook.

Etapa 1: criar um catálogo de dados
screenshot-glue-step1-data-catalog2b

Primeiro, use o Console de Gerenciamento da AWS para registrar fontes de dados. O AWS Glue executará o crawling de fontes de dados e construirá um catálogo de dados usando classificadores predefinidos para diversos formatos de fontes e tipos de dados conhecidos, como JSON, CSV e Parquet, entre outros.

Etapa 2: gerar e editar as transformações
screenshot-glue-step2-etl-generation4

Em seguida, selecione uma fonte e um destino de dados. O AWS Glue gerará código ETL em Scala ou Python para extrair dados da fonte, transformar os dados para que correspondam ao esquema de destino e carregá-los no destino. É possível editar, depurar e testar esse código por meio do console, do seu IDE favorito ou em qualquer notebook.

Etapa 3: programar e executar tarefas
screenshot-glue-step3-orchestration2

O AWS Glue facilita programar tarefas de ETL recorrentes, encadear várias tarefas em conjunto ou invocar tarefas sob demanda de outros serviços, como o AWS Lambda. O AWS Glue gerencia as dependências entre as tarefas, escala automaticamente recursos subjacentes e tenta executar novamente as tarefas, no caso de falha.

Acesse a página de recursos do AWS Glue ou consulte a documentação do produto para saber mais.

Casos de uso

Fazer consultas em um data lake do Amazon S3

Data lakes são uma maneira cada vez mais conhecida de armazenar e analisar dados estruturados e não estruturados. Se você usar um data lake do Amazon S3, o AWS Glue poderá disponibilizar todos os seus dados imediatamente para análise sem que seja necessário migrá-los.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Analisar dados de log no data warehouse

Prepare o clickstream ou processe dados de log para análises limpando, normalizando e enriquecendo o conjuntos de dados usando o AWS Glue. O AWS Glue gera o esquema para dados semiestruturados, cria o código ETL para transformar, mesclar e enriquecer dados, assim como carrega o data warehouse repetidamente.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Visualização unificada de dados em vários datastores

É possível usar o AWS Glue Data Catalog para descobrir e fazer pesquisas rapidamente em vários conjuntos de dados da AWS sem a necessidade de migrar os dados. Quando os dados forem catalogados, eles serão disponibilizados imediatamente para pesquisa e consulta usando o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Pipelines ETL controlados por eventos

O AWS Glue pode executar tarefas do ETL baseadas em um evento, como a obtenção de um novo conjunto de dados. Por exemplo, você pode usar uma função do AWS Lambda para acionar tarefas de ETL para que sejam executadas assim que novos dados forem disponibilizados no Amazon S3. Também é possível registrar esse novo conjunto de dados no AWS Glue Data Catalog como parte das tarefas de ETL.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Conceitos básicos da AWS

icon1

Cadastrar-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.
icon2

Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.
icon3

Comece a criar com a AWS

Comece a compilar com os guias passo a passo que ajudam a iniciar seu projeto da AWS.

Saiba mais sobre o AWS Glue

Acesse a página de recursos
Pronto para criar?
Comece a usar o AWS Glue
Mais dúvidas?
Entre em contato conosco