AWS Data Pipeline es un servicio web que ofrece un sistema de administración sencillo para flujos de trabajo controlados por datos. Al utilizar AWS Data Pipeline, define una canalización compuesta por las "fuentes de datos" que contienen los datos, las "actividades" o la lógica empresarial como tareas de EMR o consultas SQL, y el "programa" conforme al que se ejecuta la lógica de negocio. Por ejemplo, podría definir una tarea que: ejecute cada hora un análisis basado en Amazon Elastic MapReduce (Amazon EMR) de los datos de logs de Amazon Simple Storage Service (Amazon S3) durante esa hora, cargue los resultados en una base de datos relacional para futuras búsquedas y, a continuación, le envíe automáticamente un email de resumen a diario.

AWS Data Pipeline gestiona:

  • La programación, la ejecución y la lógica de reintentos de las tareas
  • El seguimiento de las dependencias entre la lógica de negocio, las fuentes de datos y los pasos de procesamiento anteriores para garantizar que la lógica no se ejecute hasta que no se conozcan todas las dependencias
  • El envío de todas las notificaciones de errores necesarias
  • Creación y administración de los recursos informáticos temporales que sus trabajos puedan necesitar

Comience con AWS de forma gratuita

Cree una cuenta gratuita
O inicie sesión en la consola

La capa gratuita de AWS incluye 3 condiciones previas de baja frecuencia y 5 actividades de baja frecuencia con AWS Data Pipeline.

Consulte los detalles de la capa gratuita de AWS »

Para garantizar que los datos estén disponibles antes de que se ejecute alguna actividad, de manera opcional AWS Data Pipeline le permite crear comprobaciones de disponibilidad de datos que se denominan “condiciones previas”. Estas comprobaciones tratarán de verificar reiteradamente la disponibilidad de los datos y bloquearán cualquier actividad dependiente para que no se ejecute hasta que no se hayan satisfecho las condiciones previas.

Para usar AWS Data Pipeline, solo tiene que:

  • Utilizar la consola de administración de AWS, la interfaz de línea de comandos o las API del servicio para definir las fuentes de datos, las condiciones previas, las actividades, el programa conforme al cual desea ejecutarlas y cualquier condición opcional de notificación
  • Recibir notificaciones configurables y automáticas si los datos no se encuentran disponibles según lo previsto o si las actividades presentan errores.

Puede encontrar (y utilizar) una serie de tareas populares de AWS Data Pipeline en la sección de plantillas de la consola de administración de AWS. Estas tareas incluyen:

  • Análisis por hora de los datos de log basados en Amazon S3
  • Replicación diaria de los datos de Amazon DynamoDB en Amazon S3
  • Replicación periódica en RDS de las tablas de base de datos on-premise de JDBC

Para obtener más información, consulte la guía para desarrolladores AWS Data Pipeline Developer Guide.

El uso que realice de este servicio está sujeto al Contrato de cliente de Amazon Web Services.