Como um serviço gerenciado de Extract-Transform-Load (ETL – Extração, transformação e carga), o AWS Data Pipeline permite que você defina a transferência e a transformação de dados entre vários serviços da AWS e recursos locais. Com o uso do Data Pipeline, você define os processos dependentes para criar seu pipeline formado por nós de dados que contêm seus dados; as atividades, ou a lógica de negócios, como trabalhos de EMR ou consultas SQL que serão executadas sequencialmente; e a programação da execução da sua lógica de negócios.

Por exemplo, se você quiser transferir dados de sequência de cliques armazenados no Amazon S3 para o Amazon Redshift, será necessário definir um pipeline com um S3DataNode que armazene seus arquivos de log, um HiveActivity que converta seus arquivos de log em um arquivo .csv usando um cluster do Amazon EMR e os armazene de volta no S3, um RedshiftCopyActivity que copie seus dados do S3 para o Redshift, e um RedshiftDataNode que conecte ao seu cluster do Redshift. Depois disso, você deverá escolher uma programação para execução no final do dia.

O AWS Data Pipeline move dados de sequência de cliques do Amazon S3 para o Amazon Redshift

Use o AWS Data Pipeline para transferir dados de sequência de cliques do Amazon S3 para o Amazon Redshift.

Comece a usar a AWS gratuitamente

Crie uma conta gratuita
Ou faça login no console

O nível gratuito da AWS inclui 3 Pré-condições de baixa frequência e 5 Atividades de baixa frequência com o AWS Data Pipeline.

Consulte os detalhes do nível gratuito da AWS »

Também é possível definir pré-condições que podem verificar se seus dados estão disponíveis antes de iniciar uma determinada atividade. No exemplo acima, você pode ter uma pré-condição no S3DataNode que verificará se os arquivos de log estão disponíveis antes de iniciar o HiveActivity.

O AWS Data Pipeline processa...

  • O agendamento, a execução e a lógica de novas tentativas de seus trabalhos.
  • O rastreamento das dependências entre suas etapas de lógica de negócios, fontes de dados e processamento anterior para garantir que sua lógica não seja executada enquanto todas as suas dependências não forem atendidas.
  • O envio de qualquer notificação de falha necessária.
  • A criação e o gerenciamento de qualquer recurso de computação que seus trabalhos possam exigir.

 

Casos de uso

Dados de ETL para o Amazon Redshift

Copie tabelas do RDS ou do DynamoDB para o S3, transforme a estrutura de dados, execute análises usando consultas SQL e carregue-as no Redshift.

Dados não estruturados de ETL

Analise dados não estruturados, como logs de sequência de cliques, usando Hive ou Pig no EMR, combine-os com dados estruturados do RDS e carregue-os no Redshift para consultá-los com facilidade.

Carregue dados de log da AWS no Amazon Redshift

Carregue arquivos de log, como os logs de faturamento da AWS ou logs do AWS CloudTrail, do Amazon CloudFront e do Amazon CloudWatch Logs, do Amazon S3 para o Redshift.

Carregamentos e extrações de dados

Copie dados da tabela do RDS ou do Redshift para o S3 e vice-versa.

Migre para a nuvem

Copie facilmente dados do seu datastore local, como um banco de dados MySQL, e migre-os para um datastore da AWS, como o S3, para torná-los disponíveis para vários serviços da AWS, como o Amazon EMR, o Amazon Redshift e o Amazon RDS.

 

Backup e recuperação do Amazon DynamoDB

Faça periodicamente o backup da sua tabela do DynamoDB no S3 para fins de recuperação de desastres.

Comece a usar agora o AWS Data Pipeline por meio do Console de Gerenciamento da AWS, da Interface da Linha de Comando da AWS ou das APIs do serviço.