跳至主要内容

AWS Data Pipeline 文档

AWS Data Pipeline 提供了以下功能:

作为一项托管式 ETL(提取-转换-加载)服务,AWS Data Pipeline 使您能够跨各种 AWS 服务以及本地资源来定义数据移动和转换。您可以使用 Data Pipeline 定义依赖性进程来创建由包含数据的数据节点组成的管道;活动或业务逻辑,例如按顺序运行的 EMR 作业或 SQL 查询;以及您的业务逻辑执行的时间表。

例如,如果您希望将存储在 Amazon S3 中的点击流数据移动到 Amazon Redshift,则可以使用存储日志文件的 S3DataNode 定义一个管道,一个使用 Amazon EMR 集群将日志文件转换为 .csv 文件并存储回 S3 的 HiveActivity,一个将您的数据从 S3 复制 Redshift 的 RedshiftCopyActivity 和一个将连接到 Redshift 集群的 RedshiftDataNode。然后,您可以选择一个时间表在一天结束时运行。

使用 AWS Data Pipeline 将点击流数据从 Amazon S3 移动到 Amazon Redshift。

您还可以定义先决条件,在启动特定活动之前检查您的数据是否可用。在上面的例子中,您可以在 S3DataNode 上设定一个先决条件,在启动 HiveActivity 之前检查日志文件是否可用。

AWS Data Pipeline 可以处理:

  • 作业的计划、执行和重试逻辑。
  • 跟踪业务逻辑、数据来源和之前的处理步骤之间的依赖关系,以便确保只有当符合依赖关系时,才会运行您的逻辑。
  • 发送任何必要的故障通知。
  • 创建和管理作业可能需要的任何计算资源。

常见使用案例

将 ETL 数据转移到 Amazon Redshift – 将 RDS 或 DynamoDB 表复制到 S3、转换数据结构、使用 SQL 查询来运行分析,并将这些分析加载到 Redshift。

ETL 非结构化数据 – 在 EMR 上使用 Hive 或 Pig 来分析非结构化数据(例如点击流日志),将这些数据与 RDS 中的结构化数据相结合,并将它们上传到 Redshift 以进行查询。

将 AWS 日志数据加载到 Amazon Redshift – 将(来自 AWS 账单日志、AWS CloudTrail、Amazon CloudFront 和 Amazon CloudWatch Logs 等来源的)日志文件从 Amazon S3 加载到 Redshift。

数据加载和提取 – 将数据从 RDS 或 Redshift 表复制到 S3,或者进行反向复制。

移到云端 – 从本地数据存储(例如 MySQL 数据库)轻松复制数据,然后将这些数据移到 AWS 数据存储(例如 S3),以使它们可用于多种 AWS 服务,例如 Amazon EMR、Amazon Redshift 和 Amazon RDS。

Amazon DynamoDB 备份和恢复 – 定期将您的 Dynamo DB 表备份到 S3,以进行灾难恢复。

其他信息

有关服务控制、安全特征和功能的更多信息,包括有关存储、检索、修改、限制和删除数据的信息(如适用),请参阅 https://docs.aws.amazon.com/index.html。对于 http://aws.amazon.com/agreement 上的《AWS 客户协议》或者您与 AWS 之间签订的用于管理您使用 AWS 服务的其他协议而言,这些其他信息并不构成此文档的一部分。