AWS Data Pipeline 文档
AWS Data Pipeline 提供了以下功能:
作为一项托管式 ETL(提取-转换-加载)服务,AWS Data Pipeline 使您能够跨各种 AWS 服务以及本地资源来定义数据移动和转换。您可以使用 Data Pipeline 定义依赖性进程来创建由包含数据的数据节点组成的管道;活动或业务逻辑,例如按顺序运行的 EMR 作业或 SQL 查询;以及您的业务逻辑执行的时间表。
例如,如果您希望将存储在 Amazon S3 中的点击流数据移动到 Amazon Redshift,则可以使用存储日志文件的 S3DataNode 定义一个管道,一个使用 Amazon EMR 集群将日志文件转换为 .csv 文件并存储回 S3 的 HiveActivity,一个将您的数据从 S3 复制 Redshift 的 RedshiftCopyActivity 和一个将连接到 Redshift 集群的 RedshiftDataNode。然后,您可以选择一个时间表在一天结束时运行。
使用 AWS Data Pipeline 将点击流数据从 Amazon S3 移动到 Amazon Redshift。
您还可以定义先决条件,在启动特定活动之前检查您的数据是否可用。在上面的例子中,您可以在 S3DataNode 上设定一个先决条件,在启动 HiveActivity 之前检查日志文件是否可用。
AWS Data Pipeline 可以处理:
- 作业的计划、执行和重试逻辑。
- 跟踪业务逻辑、数据来源和之前的处理步骤之间的依赖关系,以便确保只有当符合依赖关系时,才会运行您的逻辑。
- 发送任何必要的故障通知。
- 创建和管理作业可能需要的任何计算资源。
常见使用案例
将 ETL 数据转移到 Amazon Redshift – 将 RDS 或 DynamoDB 表复制到 S3、转换数据结构、使用 SQL 查询来运行分析,并将这些分析加载到 Redshift。
ETL 非结构化数据 – 在 EMR 上使用 Hive 或 Pig 来分析非结构化数据(例如点击流日志),将这些数据与 RDS 中的结构化数据相结合,并将它们上传到 Redshift 以进行查询。
将 AWS 日志数据加载到 Amazon Redshift – 将(来自 AWS 账单日志、AWS CloudTrail、Amazon CloudFront 和 Amazon CloudWatch Logs 等来源的)日志文件从 Amazon S3 加载到 Redshift。
数据加载和提取 – 将数据从 RDS 或 Redshift 表复制到 S3,或者进行反向复制。
移到云端 – 从本地数据存储(例如 MySQL 数据库)轻松复制数据,然后将这些数据移到 AWS 数据存储(例如 S3),以使它们可用于多种 AWS 服务,例如 Amazon EMR、Amazon Redshift 和 Amazon RDS。
Amazon DynamoDB 备份和恢复 – 定期将您的 Dynamo DB 表备份到 S3,以进行灾难恢复。
其他信息
有关服务控制、安全特征和功能的更多信息,包括有关存储、检索、修改、限制和删除数据的信息(如适用),请参阅 https://docs.aws.amazon.com/index.html。对于 http://aws.amazon.com/agreement 上的《AWS 客户协议》或者您与 AWS 之间签订的用于管理您使用 AWS 服务的其他协议而言,这些其他信息并不构成此文档的一部分。