AWS Data Pipeline представляет собой управляемый сервис ETL (извлечения, трансформации и загрузки данных); он позволяет задавать принципы перемещения данных между различными сервисами AWS и/или локальными ресурсами, а также преобразования данных. С помощью AWS Data Pipeline можно определять зависимые процессы для создания конвейера, компонентами которого являются узлы данных (узлы, где находятся данные), действия, или бизнес-логика (например, последовательно выполняемые задания EMR или SQL-запросы) и расписание выполнения действий.

Например, если требуется переместить истории посещений, хранящиеся в Amazon S3, в Amazon Redshift, нужно определить конвейер с узлом S3DataNode, в котором хранятся файлы журналов; действие HiveActivity, которое будет преобразовывать файлы журналов в CSV-файл, используя кластер Amazon EMR, и сохранять его обратно в S3; действие RedshiftCopyActivity, которое будет копировать данные из S3 в Redshift, и узел RedshiftDataNode, который будут подключаться к кластеру Redshift. И наконец, можно выбрать расписание, по которому будут выполняться действия.

ExampleWorkflow

PLACEHOLDER: Используйте AWS Data Pipeline для перемещения истории посещений из Amazon S3 в Amazon Redshift.

Начните работать с AWS бесплатно

Создать бесплатный аккаунт
или войти в Консоль

В рамках сервиса AWS Data Pipeline уровень бесплатного пользования AWS включает 3 предварительных условия и 5 операций с низкой частотой выполнения.

Сведения об уровне бесплатного пользования AWS »

Можно также определить предварительные условия готовности данных, которые будут проверяться перед началом выполнения определенных действий. Для приведенного выше примера можно задать предварительное условие для S3DataNode, которое будет проверять, доступны ли файлы журналов, прежде чем начинать выполнение действия HiveActivity.

AWS Data Pipeline берет на себя следующие операции:

  • планирование и выполнение заданий, включая повторные попытки;
  • отслеживание зависимостей между бизнес-логикой, источниками данных и предыдущими шагами обработки, гарантирующее, что действие не будет выполняться, пока не будут удовлетворены все зависимости;
  • отправку всех необходимых оповещений об ошибках;
  • создание любых вычислительных ресурсов, необходимых для выполнения заданий, и управление ими.

 

Cognito_page_divider

Выполнение ETL-операций с данными для отправки в Amazon Redshift

Копирование таблиц RDS или DynamoDB в S3, преобразование структуры данных, запуск аналитических операций с использованием SQL-запросов и загрузка данных в Redshift.

ETL-операции с неструктурированными данными

Анализ неструктурированных данных, например истории посещений, с помощью Hive или Pig на EMR, объединение их со структурированными данными из RDS и загрузка в Redshift для упрощения выполнения запросов.

Загрузка данных журналов AWS в Amazon Redshift

Загрузка файлов журналов, например истории выставления счетов AWS или журналов сервисов AWS CloudTrail, Amazon CloudFront и Amazon CloudWatch Logs, из Amazon S3 в Redshift.

Загрузка и извлечение данных

Копируйте данные из таблицы RDS или Redshift в S3 или в обратном направлении.

Перемещение в облако

Просто копируйте данные из локального хранилища данных, например базы данных MySQL, и перемещайте их в хранилище данных AWS, например S3, чтобы сделать данные доступными для различных сервисов AWS, таких как Amazon EMR, Amazon Redshift и Amazon RDS.

 

Резервное копирование и восстановление в Amazon DynamoDB

Периодически создавайте резервную копию таблицы DynamoDB в S3 для целей аварийного восстановления.

Начните использовать AWS Data Pipeline прямо сейчас с помощью Консоли управления AWS, интерфейса командной строки AWS или API сервиса.