AWS Data Pipeline 文档

AWS Data Pipeline 提供了以下功能：

作为一项托管式 ETL（提取-转换-加载）服务，AWS Data Pipeline 使您能够跨各种 AWS 服务以及本地资源来定义数据移动和转换。您可以使用 Data Pipeline 定义依赖性进程来创建由包含数据的数据节点组成的管道；活动或业务逻辑，例如按顺序运行的 EMR 作业或 SQL 查询；以及您的业务逻辑执行的时间表。

例如，如果您希望将存储在 Amazon S3 中的点击流数据移动到 Amazon Redshift，则可以使用存储日志文件的 S3DataNode 定义一个管道，一个使用 Amazon EMR 集群将日志文件转换为 .csv 文件并存储回 S3 的 HiveActivity，一个将您的数据从 S3 复制 Redshift 的 RedshiftCopyActivity 和一个将连接到 Redshift 集群的 RedshiftDataNode。然后，您可以选择一个时间表在一天结束时运行。

使用 AWS Data Pipeline 将点击流数据从 Amazon S3 移动到 Amazon Redshift。

您还可以定义先决条件，在启动特定活动之前检查您的数据是否可用。在上面的例子中，您可以在 S3DataNode 上设定一个先决条件，在启动 HiveActivity 之前检查日志文件是否可用。

AWS Data Pipeline 可以处理：

作业的计划、执行和重试逻辑。
跟踪业务逻辑、数据来源和之前的处理步骤之间的依赖关系，以便确保只有当符合依赖关系时，才会运行您的逻辑。
发送任何必要的故障通知。
创建和管理作业可能需要的任何计算资源。

常见使用案例

将 ETL 数据转移到 Amazon Redshift – 将 RDS 或 DynamoDB 表复制到 S3、转换数据结构、使用 SQL 查询来运行分析，并将这些分析加载到 Redshift。

ETL 非结构化数据 – 在 EMR 上使用 Hive 或 Pig 来分析非结构化数据（例如点击流日志），将这些数据与 RDS 中的结构化数据相结合，并将它们上传到 Redshift 以进行查询。

将 AWS 日志数据加载到 Amazon Redshift – 将（来自 AWS 账单日志、AWS CloudTrail、Amazon CloudFront 和 Amazon CloudWatch Logs 等来源的）日志文件从 Amazon S3 加载到 Redshift。

数据加载和提取 – 将数据从 RDS 或 Redshift 表复制到 S3，或者进行反向复制。

移到云端 – 从本地数据存储（例如 MySQL 数据库）轻松复制数据，然后将这些数据移到 AWS 数据存储（例如 S3），以使它们可用于多种 AWS 服务，例如 Amazon EMR、Amazon Redshift 和 Amazon RDS。

Amazon DynamoDB 备份和恢复 – 定期将您的 Dynamo DB 表备份到 S3，以进行灾难恢复。

其他信息

有关服务控制、安全特征和功能的更多信息，包括有关存储、检索、修改、限制和删除数据的信息（如适用），请参阅 https://docs.aws.amazon.com/index.html。对于 http://aws.amazon.com/agreement 上的《AWS 客户协议》或者您与 AWS 之间签订的用于管理您使用 AWS 服务的其他协议而言，这些其他信息并不构成此文档的一部分。

AWS Data Pipeline 文档

AWS Data Pipeline 提供了以下功能：

常见使用案例

其他信息

了解

资源

开发人员

帮助