AWS Data Pipeline 是一种为数据驱动型工作流提供简单管理系统的Web 服务。在使用 AWS Data Pipeline 时,您将数据管道定义为包含数据的“数据源”、“活动”或业务逻辑(如 EMR 作业或 SQL 查询),以及业务逻辑执行的“时间表”。例如,您可以定义一个这样的作业,依每小时就该小时内的 Amazon Simple Storage Service (Amazon S3) 日志数据运行一次 Amazon Elastic MapReduce (Amazon EMR) 分析,将结果载入关系数据库以供将来查询,最后自动发送一封每日汇总电子邮件给您。
AWS Data Pipeline 处理:
- 您的作业之计划、执行和重试逻辑
- 跟踪业务逻辑、数据源和上一处理步骤之间的相关性,以确保您的逻辑,不会在满足所有相关性之前开始运行
- 发送任何必要的故障通知
- 创建和管理作业可能需要的任何临时计算资源
为了在执行活动之前确认数据可用,AWS Data Pipeline 允许您选择性地创建数据可用性检查,即“前提条件”。这些检查会不断尝试验证数据的可用性,并阻止执行任何相关的活动,直至满足前提条件。
要使用 AWS Data Pipeline,您只需:
- 使用 AWS 管理控制台、命令行界面或服务 API 来定义数据源、前提条件、活动、执行活动的时间表,以及可选的通知条件
- 当您的数据没有按预期变为可用,或活动遇到错误时,接收可配置的、自动发送通知
您可以在 AWS 管理控制台的模板部分找到(和使用)各种常见的 AWS Data Pipeline 任务。这些任务包括:
- Amazon S3 日志数据的小时分析
- 每日将 Amazon DynamoDB 数据复制到 Amazon S3
- 定期将本地 JDBC 数据库表复制到 RDS
要了解更多信息,请参阅 AWS Data Pipeline Developer Guide。
本服务遵循 Amazon Web Services 客户协议。