Como um serviço gerenciado de ETL (Extract-Transform-Load – Extração, transformação e carga), o AWS Data Pipeline permite que você defina a transferência e a transformação de dados entre vários serviços da AWS, assim como para recursos locais. Com o uso do Data Pipeline, você define os processos dependentes para criar seu pipeline formado por nós de dados que contêm seus dados; as atividades, ou a lógica de negócios, como trabalhos de EMR ou consultas SQL que serão executadas sequencialmente; além da programação na qual será executada sua lógica de negócios.

Por exemplo, se você desejar transferir dados de sequência de cliques armazenados no Amazon S3 para o Amazon Redshift, será necessário definir um pipeline com um S3DataNode que armazene seus arquivos de log, um HiveActivity que converta seus arquivos de log em um arquivo .csv usando um cluster do Amazon EMR e armazená-lo de volta no S3, um RedshiftCopyActivity que copiará seus dados do S3 para o Redshift, além de um RedshiftDataNode que será conectado ao seu cluster do Redshift. Depois disso, você deverá escolher uma programação para executar no final do dia.

ExampleWorkflow

ESPAÇO RESERVADO: use o AWS Data Pipeline para transferir dados de sequência de cliques do Amazon S3 para o Amazon Redshift.

Comece a usar a AWS gratuitamente

Crie uma conta gratuita
Ou faça login no Console

O nível gratuito da AWS inclui 3 Pré-condições de baixa frequência e 5 Atividades de baixa frequência com o AWS Data Pipeline.

Consulte os detalhes do nível gratuito da AWS »

Você também pode definir pré-condições que podem verificar se seus dados estão disponíveis antes de iniciar uma determinada atividade. No exemplo acima, você pode ter uma pré-condição no S3DataNode que verificará se os arquivos de log estão disponíveis antes de iniciar o HiveActivity.

O AWS Data Pipeline processa...

  • O agendamento, a execução e a lógica de novas tentativas de seus trabalhos.
  • O rastreamento das dependências entre suas etapas de lógica de negócios, fontes de dados e processamento anterior para garantir que sua lógica não seja executada enquanto todas as suas dependências não forem atendidas.
  • O envio de qualquer notificação de falha necessária.
  • A criação e o gerenciamento de qualquer recurso de computação que seus trabalhos possam exigir.

 

Cognito_page_divider

Dados de ETL para o Amazon Redshift

Copie tabelas do RDS ou do DynamoDB para o S3, transforme a estrutura de dados, execute análises usando consultas SQL e carregue-as no Redshift.

Dados não estruturados de ETL

Analise dados não estruturados, como logs de sequência de cliques, usando Hive ou Pig no EMR, combine-os com dados estruturados do RDS e carregue-os no Redshift para consultas fáceis.

Carregue dados de log da AWS no Amazon Redshift

Carregue arquivos de log, como os logs de faturamento da AWS, ou logs do AWS CloudTrail, do Amazon CloudFront e do Amazon CloudWatch, do Amazon S3 para o Redshift.

Carregamentos e extrações de dados

Copie dados da tabela do RDS ou do Redshift para o S3 e vice-versa.

Migre para a nuvem

Copie facilmente dados do seu armazenamento de dados local, como um banco de dados MySQL, e migre-os para um armazenamento de dados da AWS, como o S3, para torná-los disponíveis para vários serviços da AWS, como o Amazon EMR, o Amazon Redshift e o Amazon RDS.

 

Backup e recuperação do Amazon DynamoDB

Faça periodicamente o backup da sua tabela do DynamoDB no S3 para fins de recuperação de desastres.

Comece a usar agora o AWS Data Pipeline por meio do Console de Gerenciamento da AWS, da AWS Command Line Interface ou das APIs de serviço.