AWS Data Pipeline 是一种为数据驱动型工作流提供简单管理系统的Web 服务。在使用 AWS Data Pipeline 时,您将数据管道定义为包含数据的“数据源”、“活动”或业务逻辑(如 EMR 作业或 SQL 查询),以及业务逻辑执行的“时间表”。例如,您可以定义一个这样的作业,依每小时就该小时内的 Amazon Simple Storage Service (Amazon S3) 日志数据运行一次 Amazon Elastic MapReduce (Amazon EMR) 分析,将结果载入关系数据库以供将来查询,最后自动发送一封每日汇总电子邮件给您。

AWS Data Pipeline 处理:

  • 您的作业之计划、执行和重试逻辑
  • 跟踪业务逻辑、数据源和上一处理步骤之间的相关性,以确保您的逻辑,不会在满足所有相关性之前开始运行
  • 发送任何必要的故障通知
  • 创建和管理作业可能需要的任何临时计算资源

开始免费使用 AWS

创建免费账户
或者登录到控制台

AWS 免费套餐包括 3 个低频率的前提条件和 5 个低频率的活动,以及 AWS 数据管道。

查看 AWS 免费套餐详细信息 »

为了在执行活动之前确认数据可用,AWS Data Pipeline 允许您选择性地创建数据可用性检查,即“前提条件”。这些检查会不断尝试验证数据的可用性,并阻止执行任何相关的活动,直至满足前提条件。

要使用 AWS Data Pipeline,您只需:

  • 使用 AWS 管理控制台、命令行界面或服务 API 来定义数据源、前提条件、活动、执行活动的时间表,以及可选的通知条件
  • 当您的数据没有按预期变为可用,或活动遇到错误时,接收可配置的、自动发送通知

您可以在 AWS 管理控制台的模板部分找到(和使用)各种常见的 AWS Data Pipeline 任务。这些任务包括:

  • Amazon S3 日志数据的小时分析
  • 每日将 Amazon DynamoDB 数据复制到 Amazon S3
  • 定期将本地 JDBC 数据库表复制到 RDS

要了解更多信息,请参阅 AWS Data Pipeline Developer Guide