O AWS Data Pipeline é um serviço da web que fornece um sistema de gerenciamento simples para fluxos de trabalho orientados a dados. Usando o AWS Data Pipeline, você define um pipeline composto por “fontes de dados” que contêm seus dados, “atividades” ou lógica comercial, como consultas SQL ou trabalhos EMR, além do “agendamento” no qual sua lógica comercial é executada. Por exemplo, você poderia definir um trabalho que, a cada hora, executaria sua análise com base no Amazon Elastic MapReduce (Amazon EMR) em relação aos dados de log do Amazon Simple Storage Service (Amazon S3) dessa hora, carregaria os resultados em um banco de dados relacional para futura consulta e então enviaria automaticamente para você um e-mail com o resumo diário.

O AWS Data Pipeline processa:

  • O agendamento, a execução e a lógica de novas tentativas de seus trabalhos
  • O rastreamento das dependências entre suas etapas de lógica comercial, fontes de dados e processamento anterior para garantir que sua lógica não seja executada enquanto todas as suas dependências não sejam atendidas
  • O envio de quaisquer notificações de falha necessárias
  • A criação e o gerenciamento de quaisquer recursos de computação temporários que seus trabalhos possam exigir

Comece a usar a AWS gratuitamente

Crie uma conta gratuita
Ou faça login no console

O nível gratuito da AWS inclui 3 Pré-condições de baixa frequência e 5 Atividades de baixa frequência com o AWS Data Pipeline.

Veja os detalhes do nível gratuito da AWS »

Para garantir que os dados estejam disponíveis antes da execução de uma atividade, o AWS Data Pipeline permite que você, opcionalmente, crie verificações de disponibilidade de dados denominadas “pré-condições”. Essas verificações tentarão repetidamente verificar a disponibilidade dos dados e bloquearão quaisquer atividades dependentes de execução até que as pré-condições sejam atendidas.

Para usar o AWS Data Pipeline, basta:

  • Usar o AWS Management Console, a interface da linha de comando ou as APIs de serviço para definir suas fontes de dados, pré-condições, atividades, o agendamento no qual deseja que elas sejam executadas e quaisquer condições de notificação opcionais
  • Receber notificações configuráveis e automáticas se seus dados não forem disponibilizados quando esperado ou se suas atividades detectarem erros

Você pode encontrar (e usar) uma variedade de tarefas conhecidas do AWS Data Pipeline na seção de modelos do AWS Management Console. Essas tarefas incluem:

  • Análise por hora dos dados de log baseados no Amazon S3
  • Replicação diária de dados do AmazonDynamoDB para o Amazon S3
  • Replicação periódica de tabelas de banco de dados do JDBC local para o RDS

Para obter mais informações, consulte o AWS Data Pipeline Developer Guide.

O uso deste serviço está sujeito ao Contrato do Cliente da Amazon Web Services.