Como un servicio de ETL (extracción, transformación y carga), AWS Data Pipeline le permite definir traslados y transformaciones de datos en varios servicios de AWS así como también para recursos locales. Con Data Pipeline, puede definir los procesos dependientes para crear su canalización conformada por los nodos de datos que contienen sus datos; las actividades o la lógica de negocio, como los trabajos de EMR o las consultas SQL que se ejecutarán en orden; y el cronograma según el cual se ejecuta la lógica de negocio.

Por ejemplo, si desea trasladar datos de secuencias de clics almacenados en Amazon S3 hacia Amazon Redshift, definiría una canalización con una operación S3DataNode que almacenase los archivos de log, una operación HiveActivity que convertirá los archivos de log en un archivo .csv a través de un clúster de Amazon EMR y lo almacenará nuevamente en S3, una operación RedshiftCopyActivity que copiará sus datos de S3 a Redshift, y una operación RedshiftDataNode que se conectará con su clúster de Redshift. A continuación, puede elegir un cronograma a ejecutar al finalizar el día.

ExampleWorkflow

MARCADOR DE POSICIÓN: Use AWS Data Pipeline para trasladar datos de secuencias de clics de Amazon S3 a Amazon Redshift.

Comience con AWS de forma gratuita

Cree una cuenta gratuita
O inicie sesión en la consola

La capa gratuita de AWS incluye 3 condiciones previas de baja frecuencia y 5 actividades de baja frecuencia con AWS Data Pipeline.

Consulte los detalles de la capa gratuita de AWS »

También puede definir condiciones previas que comprueben si los datos están disponibles antes de iniciar una actividad en particular. En el ejemplo anterior, puede definir una condición previa en la operación S3DataNode que realice una comprobación para verificar si los archivos de log están disponibles antes de iniciar la operación HiveActivity.

AWS Data Pipeline gestiona...

  • La programación, la ejecución y la lógica de reintentos de las tareas.
  • El seguimiento de las dependencias entre la lógica de negocio, los orígenes de datos y los pasos de procesamiento anteriores para garantizar que la lógica no se ejecute hasta que no se conozcan todas las dependencias.
  • El envío de todas las notificaciones de errores necesarias.
  • La creación y administración de los recursos informáticos que sus trabajos puedan necesitar.

 

Cognito_page_divider

Datos de ETL a Amazon Redshift

Copie tablas de Dynamo DB o RDS a S3, transforme la estructura de los datos, ejecute análisis con consultas SQL y cárguelos a Redshift.

Datos no estructurados de ETL

Analice los datos no estructurados como logs de secuencias de datos con Hive o Pig en EMR, combínelos con datos estructurados de RDS y cárguelos a Redshift para realizar consultas fácilmente.

Cargue datos de log de AWS a Amazon Redshift

Cargue archivos de log como los logs de facturación de AWS o los de AWS CloudTrail, Amazon CloudFront y Amazon CloudWatch desde Amazon S3 a Redshift.

Cargas y extracciones de datos

Copie datos desde su tabla de RDS o Redshift a S3 y viceversa.

Migre a la nube

Copie fácilmente datos desde su almacén de datos local, como una base de datos MySQL, y mígrelos a un almacén de datos de AWS, como S3, para ponerlos a disposición de una variedad de servicios de AWS, como Amazon EMR, Amazon Redshift y Amazon RDS.

 

Backup y recuperación de Amazon DynamoDB

Realice backups periódicos de su tabla de Dynamo DB en S3 para la recuperación de desastres.

Comience a usar AWS Data Pipeline ahora mediante la consola de administración de AWS, la interfaz de línea de comandos de AWS o las API de los servicios.