AWS Glue
Nuvem da AWS
Cadastre-se para acessar uma demonstração

O AWS Glue é um serviço de ETL totalmente gerenciado que facilita a movimentação de dados entre datastores. O AWS Glue simplifica e automatiza tarefas difíceis e demoradas de descoberta, conversão, mapeamento e programação de trabalhos de dados. O AWS Glue oferece orientações durante o processo de movimentação de dados com um console fácil de usar que ajuda a compreender as fontes de dados, preparar os dados para análise e transportar os dados de forma confiável entre as fontes e os destinos.

O AWS Glue é integrado aos serviços Amazon S3, Amazon RDSAmazon Redshift, além de poder se conectar a qualquer datastore compatível com JDBC. O AWS Glue percorre automaticamente as fontes de dados, identificando formatos de dados e sugerindo schemas e transformações para que você não tenha de perder tempo codificando manualmente fluxos de dados. Em seguida, se necessário, você pode editar as transformações usando as ferramentas e tecnologias que já conhece, como Python, Spark, Git e seu ambiente integrado de desenvolvimento (IDE) favorito, e compartilhá-las com outros usuários do AWS Glue. O AWS Glue programa trabalhos de ETL e provisiona e define a escala de toda a infraestrutura necessária, permitindo que os trabalhos sejam executados com rapidez e eficiência em qualquer escala. Não há necessidade de gerenciar servidores e você paga apenas pelos recursos consumidos pelos trabalhos de ETL.

Apresentação do AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Apresentação do AWS Glue

Para obter as mais recentes informações sobre a disponibilidade do serviço, inscreva-se aqui para que possamos mantê-lo atualizado por e-mail.

Etapa 1. Crie um catálogo de dados

Primeiro, use o Console de Gerenciamento da AWS para registrar os dados no AWS Glue. O AWS Glue percorre as fontes de dados e constrói um catálogo de dados usando classificadores predefinidos para diversos formatos de fontes e tipos de dados comuns, incluindo JSON, CSV e Parquet, entre outros. Também é possível adicionar seus próprios classificadores ou escolher classificadores da comunidade do AWS Glue para usá-los ao percorrer os dados.


Etapa 1. Crie automaticamente o catálogo de dados
Etapa 1. Crie automaticamente o catálogo de dados

Clique para ver a imagem ampliada


Etapa 2. Gere e edite as transformações

Em seguida, selecione uma fonte e um destino de dados. O AWS Glue gerará código Python para extrair dados da fonte, transformar os dados de acordo com o schema de destino e carregá-los no destino. O código gerado automaticamente trata os casos de erros comuns, como dados inválidos ou falhas de hardware. Você pode editar esse código usando seu IDE favorito e testá-lo com seus próprios dados de amostra. Também é possível examinar o código compartilhado por outros usuários do AWS Glue e incorporá-lo aos trabalhos.


Etapa 2. Gere as transformações
Etapa 2. Gere as transformações

Clique para ver a imagem ampliada


Etapa 3. Programe e execute os trabalhos

Por fim, você pode usar o programador flexível do AWS Glue para executar fluxos de forma recorrente, como resposta a triggers ou até mesmo como resposta a eventos do AWS Lambda. O AWS Glue distribui automaticamente trabalhos de ETL em nós do Apache Spark, permitindo que os tempos de execução do ETL permaneçam constantes com o crescimento do volume dos dados. O AWS Glue coordena a execução dos trabalhos na sequência correta e tenta reexecutar automaticamente os trabalhos que apresentam falha. O AWS Glue altera de maneira elástica a escala da infraestrutura necessária para concluir os trabalhos no prazo e reduzir custos.


Etapa 3. Programe e execute os trabalhos
Etapa 3. Programe e execute os trabalhos

Clique para ver a imagem ampliada


Pronto.

É só isso! Com os trabalhos de ETL em produção, o AWS Glue ajuda a rastrear alterações nos metadados, como definições de schemas e formatos de dados, para que os trabalhos de ETL fiquem sempre atualizados.

reinvent-hkt-banner-01

O AWS re:Invent é a maior reunião da comunidade global da AWS. A conferência permite obter um conhecimento mais detalhado dos serviços da AWS e aprender as melhores práticas. Anunciamos o AWS Glue no re:Invent 2016. Assista às sessões abaixo para saber mais sobre o AWS Glue e outras análises relacionadas, ou confira toda a lista de reprodução das sessões sobre big data.

O AWS Glue é um serviço gerenciado de ETL que facilita a compreensão das fontes de dados, a preparação dos dados para análises e a carga confiável desses dados em datastores. Nesta sessão, apresentamos o AWS Glue, oferecemos uma visão geral de seus componentes e abordamos como você pode usar o serviço para simplificar e automatizar seu processo de ETL. Também falamos sobre quando você pode experimentar o serviço e como se cadastrar em uma demonstração.

Assista aqui »

 

A análise de big data exige um data warehouse otimizado de modo rápido e eficiente para administrar e dimensionar grandes conjuntos de dados. O Amazon Redshift é um data warehouse rápido e na escala de petabytes que torna simples e econômica a análise de todos os seus dados por uma fração do custo dos data warehouses tradicionais. Nesta sessão, analisamos detalhadamente o uso do data warehouse com o Amazon Redshift para análises de big data. Abordamos as melhores práticas para aproveitar a tecnologia colunar e os recursos de processamento paralelo do Amazon Redshift para oferecer alto desempenho de produtividade e consulta. Também abordamos como projetar esquemas ideais, carregar dados de forma eficiente e usar o gerenciamento de carga de trabalho.

Assista aqui »

 

O mundo está produzindo um volume cada vez maior de big data, com mais velocidade e maior variedade. Os consumidores e as empresas estão exigindo análises de até 1 segundo (ou até mesmo milissegundo) nos dados em rápido movimento, além do processamento em lote clássico. A AWS oferece muitas tecnologias para solucionar os problemas com big data. Mas quais serviços devo usar? Por que, quando e como usá-los? Nesta sessão, simplificamos o processamento de big data como um barramento de dados que compreende várias etapas: ingestão, armazenamento, processamento e visualização. Em seguida, discutimos como escolher a tecnologia certa em cada estágio com base em critérios como estrutura de dados, latência de consulta, custo, taxa de solicitação, tamanho do item, volume de dados, durabilidade, etc. Finalmente, oferecemos a arquitetura de referência, os padrões de design e as melhores práticas para montar essas tecnologias de froma que resolva seus problemas de big data com o custo correto.

Assista aqui »

 

Cadastre-se no programa de demonstração do AWS Glue aqui. Após sua aprovação, será possível testar o serviço gratuitamente.

Cadastre-se para acessar uma demonstração