AWS Data Pipeline 是受管 ETL (擷取、轉換和載入) 服務,可讓您定義跨各種 AWS 服務和現場部署資源的資料移動和轉換。使用 Data Pipeline,您可以定義相依程序以建立由資料節點 (包含您的資料) 組成的管道;按順序進行的活動或 EMR 任務等商業邏輯或 SQL 查詢;以及執行商業邏輯的時間表。

例如,如果您想將存放在 Amazon S3 的點擊流資料移到 Amazon Redshift,則要定義含有 S3DataNode 的管道以存放日誌檔、可使用 Amazon EMR 叢集將日誌檔轉換成 .csv 檔案並將其存回 S3 的 HiveActivity、可將您的資料從 S3 複製到 Redshift 的 RedshiftCopyActivity,以及可連接到 Redshift 叢集的 RedshiftDataNode。接著,您就可以排定要在當天結束時執行的時間。

ExampleWorkflow

預留位置:使用 AWS Data Pipeline 將點擊流資料從 Amazon S3 移到 Amazon Redshift。

開始免費使用 AWS

建立免費帳戶
或者,請登入主控台

AWS 免費方案包括使用 AWS Data Pipeline 的 3 個低頻先決條件和 5 個低頻活動。

查看 AWS 免費方案詳細資訊 »

您也可以定義先決條件,檢查資料是否可用,再啟動特定活動。在上述範例中,您可以在 S3DataNode 設定先決條件,檢查日誌檔是否可用,再啟動 HiveActivity。

AWS Data Pipeline 處理:

  • 您任務的排程、執行和重試邏輯。
  • 追蹤商業邏輯、資料來源和之前處理步驟之間的相依性,確保滿足所有相依性之後才能執行您的邏輯。
  • 傳送任何必要的失敗通知。
  • 建立和管理您任務所需的任何運算資源。

 

Cognito_page_divider

將資料擷取、轉換、載入 Amazon Redshift

將 RDS 或 DynamoDB 表複製到 S3、轉換資料結構、使用 SQL 查詢執行分析,然後將資料載入 Redshift。

擷取、轉換、載入非結構化資料

使用 EMR 上的 Hive 或 Pig 分析點擊流日誌等非結構化資料、將其與 RDS 的結構化資料相結合,然後上傳到 Redshift 以簡化查詢功能。

將 AWS 日誌資料載入 Amazon Redshift

將來自 AWS 帳單日誌等來源的日誌檔或 AWS CloudTrail、Amazon CloudFront 和 Amazon CloudWatch Logs 從 Amazon S3 載入 Redshift。

載入和擷取資料

將資料從 RDS 或 Redshift 表複製到 S3,反之亦然。

移到雲端

輕鬆從 MySQL 資料庫等現場部署資料存放區複製資料,然後移到 S3 這類 AWS 資料存放區,以便讓各式各樣的 AWS 服務使用,像是 Amazon EMR、Amazon Redshift 和 Amazon RDS。

 

Amazon DynamoDB 備份和復原

定期將 Dynamo DB 表備份到 S3 以供災難復原使用。

立即透過 AWS 管理主控台AWS 命令列界面或服務 API 使用 AWS Data Pipeline。