AWS Data Pipeline 是受管 ETL (擷取、轉換和載入) 服務,可讓您定義跨各種 AWS 服務和內部部署資源的資料移動和轉換。使用 Data Pipeline,您可以定義相依程序以建立由資料節點 (包含您的資料) 組成的管道;活動或商業邏輯,如按順序執行 EMR 任務或 SQL 查詢;以及執行商業邏輯的排程。
例如,如果您想將存放在 Amazon S3 的點擊流資料移到 Amazon Redshift,則要定義含有 S3DataNode 的管道以存放日誌檔、可使用 Amazon EMR 叢集將日誌檔轉換成 .csv 檔案並將其存回 S3 的 HiveActivity、可將您的資料從 S3 複製到 Redshift 的 RedshiftCopyActivity,以及可連接到 Redshift 叢集的 RedshiftDataNode。接著,您就可以選擇要在一天結束時執行的排程。

使用 AWS Data Pipeline 將點擊流資料從 Amazon S3 移到 Amazon Redshift。
您也可以定義先決條件,檢查資料是否可用,再啟動特定活動。在上述範例中,您可以在 S3DataNode 設定先決條件,檢查日誌檔是否可用,再啟動 HiveActivity。
AWS Data Pipeline 處理:
- 任務的排程、執行和重試邏輯。
- 追蹤商業邏輯、資料來源和之前處理步驟之間的相依性,確保滿足所有相依性之後才能執行您的邏輯。
- 傳送任何必要的失敗通知。
- 建立和管理您任務所需的任何運算資源。

將資料擷取、轉換、載入 Amazon Redshift
將 RDS 或 DynamoDB 表複製到 S3、轉換資料結構、使用 SQL 查詢執行分析,然後將資料載入 Redshift。
擷取、轉換、載入非結構化資料
使用 EMR 上的 Hive 或 Pig 分析點擊流日誌等非結構化資料、將其與 RDS 的結構化資料相結合,然後上傳到 Redshift 以簡化查詢功能。
將 AWS 日誌資料載入 Amazon Redshift
將來自 AWS 帳單日誌、AWS CloudTrail、Amazon CloudFront 和 Amazon CloudWatch Logs 等日誌檔從 Amazon S3 載入 Redshift。
載入和擷取資料
將資料從 RDS 或 Redshift 表複製到 S3,反之亦然。
移到雲端
輕鬆從 MySQL 資料庫等內部部署資料存放區複製資料,然後移到 S3 這類 AWS 資料存放區,以便讓各式各樣的 AWS 服務使用,像是 Amazon EMR、Amazon Redshift 和 Amazon RDS。
Amazon DynamoDB 備份和復原
定期將 Dynamo DB 表備份到 S3 以供災難復原使用。