AWS Data Pipeline – это веб‑сервис, помогающий надежно и с заданными интервалами обрабатывать данные и перемещать их между различными вычислительными сервисами и сервисами хранилищ AWS, а также локальными источниками данных. AWS Data Pipeline обеспечивает регулярный доступ к данным в местах хранения, преобразование и обработку данных в любых масштабах и эффективную передачу полученных результатов таким сервисам AWS, как Amazon S3, Amazon RDS, Amazon DynamoDB и Amazon EMR.
AWS Data Pipeline позволяет без труда создавать сложные рабочие процессы обработки данных, обеспечивая их устойчивость к сбоям, воспроизводимость и высокую доступность. Вам не придется заниматься обеспечением доступности ресурсов, управлением зависимостями между задачами, созданием системы оповещения об ошибках или повторением отдельных задач, выполнение которых завершилось неустойчивым отказом или было прервано по тайм‑ауту. AWS Data Pipeline также позволяет перемещать и обрабатывать данные, ранее размещавшиеся в разрозненных локальных хранилищах.
3 предварительных условия с низкой частотой бесплатно
в месяц в течение первых 12 месяцев на уровне бесплатного пользования AWS

Надежность
Сервис AWS Data Pipeline основан на высокодоступной распределенной инфраструктуре, предназначенной для отказоустойчивого выполнения операций. При возникновении сбоя в алгоритме действия или в источнике данных AWS Data Pipeline автоматически повторяет действие. Если сбой повторяется, AWS Data Pipeline посылает пользователю уведомление об отказе через Amazon Simple Notification Service (Amazon SNS). Можно настроить отправку уведомлений об успешном завершении действия, задержке запланированного действия или отказах.

Простота использования
С помощью консоли сервиса с поддержкой перетаскивания можно быстро и просто создать конвейер обработки данных. Стандартные предварительные условия встроены в сервис, поэтому для их использования не требуется писать дополнительный код. Например, можно проверить существование файла в Amazon S3 с помощью указания имени корзины Amazon S3 и пути доступа к этому файлу, остальное сервис AWS Data Pipeline сделает самостоятельно.
Помимо простого в использовании визуального конструктора конвейеров AWS Data Pipeline предоставляет библиотеку шаблонов конвейеров. Эти шаблоны упрощают создание конвейеров для ряда более сложных случаев применения, таких как регулярная обработка файлов журналов, архивирование данных в Amazon S3 или периодическое выполнение SQL‑запросов.

Гибкость
AWS Data Pipeline предоставляет такие возможности, как планирование, отслеживание зависимостей и обработка ошибок. Вы можете использовать действия и предварительные условия, предоставляемые AWS, и (или) создавать их самостоятельно. Это подразумевает возможность настроить AWS Data Pipeline на выполнение таких действий, как запуск заданий сервиса Amazon EMR, выполнение SQL‑запросов непосредственно по базам данных или запуск настраиваемых приложений, работающих на Amazon EC2 или в собственном центре обработки данных. В результате можно создавать мощные настраиваемые конвейеры для анализа и обработки данных, не тратя силы на решение проблем надежного планирования и исполнения логики приложения.

Масштабируемость
Сервис AWS Data Pipeline обеспечивает простое распределение работы на одну или несколько машин как для параллельного, так и для последовательного выполнения. С использованием гибкой архитектуры сервиса AWS Data Pipeline можно с одинаковым удобством обрабатывать один файл или миллион файлов.

Низкая стоимость
Сервис AWS Data Pipeline очень экономичен, небольшая плата начисляется помесячно. В рамках уровня бесплатного пользования AWS можно работать с этим сервисом бесплатно. Подробнее.

Прозрачность
Вы обладаете полным контролем над вычислительными ресурсами, исполняющими бизнес‑логику, что облегчает расширение и отладку кода. Кроме того, журналы регистрации выполнения заданий в полном объеме передаются в Amazon S3, что обеспечивает наличие подробных записей обо всем, что происходит на конвейере.