AWS Data Pipeline 是受管 ETL (擷取、轉換和載入) 服務,可讓您定義跨各種 AWS 服務和內部部署資源的資料移動和轉換。使用 Data Pipeline,您可以定義相依程序以建立由資料節點 (包含您的資料) 組成的管道;活動或商業邏輯,如按順序執行 EMR 任務或 SQL 查詢;以及執行商業邏輯的排程。

例如,如果您想將存放在 Amazon S3 的點擊流資料移到 Amazon Redshift,則要定義含有 S3DataNode 的管道以存放日誌檔、可使用 Amazon EMR 叢集將日誌檔轉換成 .csv 檔案並將其存回 S3 的 HiveActivity、可將您的資料從 S3 複製到 Redshift 的 RedshiftCopyActivity,以及可連接到 Redshift 叢集的 RedshiftDataNode。接著,您就可以選擇要在一天結束時執行的排程。

AWS Data Pipeline 將點擊流資料從 Amazon S3 移到 Amazon Redshift

使用 AWS Data Pipeline 將點擊流資料從 Amazon S3 移到 Amazon Redshift。

開始免費使用 AWS

建立免費帳戶
或者,登入主控台

AWS 免費方案包括使用 AWS Data Pipeline 的 3 個低頻先決條件和 5 個低頻活動。

查看 AWS 免費方案詳細資訊 »

您也可以定義先決條件,檢查資料是否可用,再啟動特定活動。在上述範例中,您可以在 S3DataNode 設定先決條件,檢查日誌檔是否可用,再啟動 HiveActivity。

AWS Data Pipeline 處理:

  • 任務的排程、執行和重試邏輯。
  • 追蹤商業邏輯、資料來源和之前處理步驟之間的相依性,確保滿足所有相依性之後才能執行您的邏輯。
  • 傳送任何必要的失敗通知。
  • 建立和管理您任務所需的任何運算資源。

 

使用案例

將資料擷取、轉換、載入 Amazon Redshift

將 RDS 或 DynamoDB 表複製到 S3、轉換資料結構、使用 SQL 查詢執行分析,然後將資料載入 Redshift。

擷取、轉換、載入非結構化資料

使用 EMR 上的 Hive 或 Pig 分析點擊流日誌等非結構化資料、將其與 RDS 的結構化資料相結合,然後上傳到 Redshift 以簡化查詢功能。

將 AWS 日誌資料載入 Amazon Redshift

將來自 AWS 帳單日誌、AWS CloudTrail、Amazon CloudFront 和 Amazon CloudWatch Logs 等日誌檔從 Amazon S3 載入 Redshift。

載入和擷取資料

將資料從 RDS 或 Redshift 表複製到 S3,反之亦然。

移到雲端

輕鬆從 MySQL 資料庫等內部部署資料存放區複製資料,然後移到 S3 這類 AWS 資料存放區,以便讓各式各樣的 AWS 服務使用,像是 Amazon EMR、Amazon Redshift 和 Amazon RDS。

 

Amazon DynamoDB 備份和復原

定期將 Dynamo DB 表備份到 S3 以供災難復原使用。

立即透過 AWS 管理主控台AWS 命令列界面或服務 API 使用 AWS Data Pipeline。