AWS Data Pipeline – это веб-сервис, предоставляющий простую систему управления рабочими процессами, зависящими от данных. В AWS Data Pipeline вы создаете конвейер, в который входят источники, содержащие ваши данные, операции или бизнес-логика, например задания EMR или запросы SQL, и график выполнения бизнес-логики. Например, можно создать задание, которое каждый час будет запускать в сервисе Amazon Elastic MapReduce (Amazon EMR) анализ данных журналов Amazon Simple Storage Service (Amazon S3), полученных за этот час, загружать результаты в реляционную базу данных для дальнейшего просмотра и автоматически отправлять вам ежедневный отчет по электронной почте.

AWS Data Pipeline обеспечивает:

  • планирование и выполнение заданий, включая повторные попытки;
  • отслеживание зависимостей между бизнес-логикой, источниками данных и предыдущими шагами обработки, гарантирующее, что действие не будет выполняться, пока не будут удовлетворены все зависимости;
  • отправку всех необходимых оповещений об ошибках;
  • создание любых временных вычислительных ресурсов, необходимых для ваших заданий, и управление ими.

Начните работать с AWS бесплатно

Создать бесплатный аккаунт
или войти в Консоль

В рамках сервиса AWS Data Pipeline уровень бесплатного пользования AWS включает 3 предварительных условия и 5 операций с низкой частотой выполнения.

Сведения об уровне бесплатного пользования AWS »

Чтобы перед выполнением операции убедиться в доступности данных, в AWS Data Pipeline можно создавать задачи проверки доступности данных, называемые предварительными условиями. Такие задачи обеспечивают периодическую проверку доступности данных и блокируют выполнение любых зависимых операций до тех пор, пока результат проверки предварительного условия не будет положительным.

Порядок работы с AWS Data Pipeline

  • С помощью Консоли управления AWS, интерфейса командной строки или API сервиса задайте источники данных, предварительные условия, операции, график их выполнения и дополнительные условия отправки оповещений.
  • Вы можете получать настраиваемые автоматические оповещения при недоступности данных в определенное время или при возникновении ошибок операций.

Целый ряд распространенных заданий AWS Data Pipeline доступен для использования в разделе шаблонов Консоли управления AWS. К числу таких заданий относятся:

  • ежечасный анализ данных журналов, сохраненных в Amazon S3;
  • ежедневная репликация данных Amazon DynamoDB в Amazon S3;
  • периодическая репликация таблиц локальных баз данных JDBC в RDS.

Подробные сведения см. в Руководстве разработчика по AWS Data Pipeline.

Использование данного сервиса регламентируется пользовательским соглашением об использовании Amazon Web Services.