AWS Data Pipeline – это веб-сервис, предоставляющий простую систему управления рабочими процессами, зависящими от данных. В AWS Data Pipeline вы создаете конвейер, в который входят источники, содержащие ваши данные, операции или бизнес-логика, например задания EMR или запросы SQL, и график выполнения бизнес-логики. Например, можно создать задание, которое каждый час будет запускать в сервисе Amazon Elastic MapReduce (Amazon EMR) анализ данных журналов Amazon Simple Storage Service (Amazon S3), полученных за этот час, загружать результаты в реляционную базу данных для дальнейшего просмотра и автоматически отправлять вам ежедневный отчет по электронной почте.
AWS Data Pipeline обеспечивает:
- планирование и выполнение заданий, включая повторные попытки;
- отслеживание зависимостей между бизнес-логикой, источниками данных и предыдущими шагами обработки, гарантирующее, что действие не будет выполняться, пока не будут удовлетворены все зависимости;
- отправку всех необходимых оповещений об ошибках;
- создание любых временных вычислительных ресурсов, необходимых для ваших заданий, и управление ими.
Начните работать с AWS бесплатно
Создать бесплатный аккаунтили войти в Консоль
В рамках сервиса AWS Data Pipeline уровень бесплатного пользования AWS включает 3 предварительных условия и 5 операций с низкой частотой выполнения.
Чтобы перед выполнением операции убедиться в доступности данных, в AWS Data Pipeline можно создавать задачи проверки доступности данных, называемые предварительными условиями. Такие задачи обеспечивают периодическую проверку доступности данных и блокируют выполнение любых зависимых операций до тех пор, пока результат проверки предварительного условия не будет положительным.
Порядок работы с AWS Data Pipeline
- С помощью Консоли управления AWS, интерфейса командной строки или API сервиса задайте источники данных, предварительные условия, операции, график их выполнения и дополнительные условия отправки оповещений.
- Вы можете получать настраиваемые автоматические оповещения при недоступности данных в определенное время или при возникновении ошибок операций.
Целый ряд распространенных заданий AWS Data Pipeline доступен для использования в разделе шаблонов Консоли управления AWS. К числу таких заданий относятся:
- ежечасный анализ данных журналов, сохраненных в Amazon S3;
- ежедневная репликация данных Amazon DynamoDB в Amazon S3;
- периодическая репликация таблиц локальных баз данных JDBC в RDS.
Подробные сведения см. в Руководстве разработчика по AWS Data Pipeline.
Использование данного сервиса регламентируется пользовательским соглашением об использовании Amazon Web Services.