開始免費使用 AWS

建立免費帳戶
或者,請登入主控台

AWS 免費方案包括 Amazon ElastiCache 提供的 750 小時微型快取節點。

查看 AWS 免費方案詳細資訊 »

問:什麼是 AWS Data Pipeline?

AWS Data Pipeline 是一種 Web 服務,使用該服務可以更輕鬆地在 AWS 雲端中安排定期資料移動和資料處理活動。AWS Data Pipeline 整合了現場部署和雲端儲存系統,可讓開發人員隨時隨地以所需的格式使用資料。使用 AWS Data Pipeline 可迅速定義包含資料來源、目的地、預先定義或自訂資料處理活動的相依資料鏈,我們稱之為管道。根據您定義的時間表,管道會定期執行各種處理活動,例如分散式資料備份、SQL 轉換、MapReduce 應用程式或針對目的地的自訂指令碼,如 Amazon S3、Amazon RDS 或 Amazon DynamoDB。以高度可擴展且全受管服務的形式執行這些工作流程的排程、重試和故障邏輯,Data Pipeline 可確保您有穩健且高度可用的管道。

問:AWS Data Pipeline 可以用來做什麼?

使用 AWS Data Pipeline,您可以快速輕鬆地佈建管道,無須費心管理日常資料操作的開發和維護,讓您能夠集中精力從該資料獲取所需的資訊。您只需為資料管道指定所需資料來源、時間表和處理活動即可。AWS Data Pipeline 在高度可靠且具有容錯功能的基礎設施上處理執行和監控處理活動。另外,為了進一步簡化您的開發流程,AWS Data Pipeline 提供了許多內建活動,適用於多種常見動作,如在 Amazon S3 和 Amazon RDS 之間複製資料,或針對 Amazon S3 日誌資料執行查詢。

問:AWS Data Pipeline 與 Amazon Simple Workflow Service 有什麼區別?

雖然兩種服務都提供執行追蹤、處理重試和例外,以及執行任意動作,但 AWS Data Pipeline 是專為大部分資料驅動型工作流程中常見的特定步驟所設計。例如:輸入資料符合特定的整備條件後執行各種活動、輕鬆地在不同資料存放區之間複製資料,以及排程鏈結的轉換。這種高度專注代表沒有程式碼或程式設計知識也可以快速建立 Data Pipeline 工作流程定義。

問:什麼是管道?

管道即 AWS Data Pipeline 資源,其中包含執行商業邏輯所需的資料來源、目的地和預先定義或自訂資料處理活動所組成的相依資料鏈定義。

問:什麼是資料節點?

資料節點代表您的業務資料。例如,資料節點可以參考特定的 Amazon S3 路徑。AWS Data Pipeline 支援表達式語言,使其更容易參考定期產生的資料。例如,您可以將 Amazon S3 資料的格式指定為: s3://example-bucket/my-logs/logdata-#{scheduledStartTime('YYYY-MM-dd-HH')}.tgz。

問:什麼是活動?

活動是 AWS Data Pipeline 代表您啟動的動作,它是管道的一部分。範例活動包括 EMR 或 Hive 任務、複製、SQL 查詢或命令列指令碼。

問:什麼是先決條件?

先決條件是一種整備檢查,可選擇性地與資料來源或活動建立關聯。如果資料來源有先決條件檢查,那麼必須先成功完成檢查,才能啟動任何需要用到該資料來源的活動。如果活動有先決條件,那麼必須先成功完成檢查才能執行活動。如果您執行的活動運算起來非常昂貴,並且在未滿足特定條件前不得執行,這將會非常有用。

問:什麼是排程?

排程定義管道活動執行的時間和服務預計資料可用的頻率。所有排程都必須有開始日期和頻率;例如,每天從 2013 年 1 月 1 日下午 3 點開始。您可以選擇性地設定排程結束日期,在此時間後,AWS Data Pipeline 服務將不執行任何活動。建立排程與活動的關聯後,活動就會按排程執行。建立排程與資料來源的關聯後,也就是告知 AWS Data Pipeline 服務,您期望資料按照該排程更新。例如,如果您以小時排程定義 Amazon S3 資料來源,服務就會預期每小時資料來源都會有新的檔案。



問:Data Pipeline 是否提供任何標準活動?

是,AWS Data Pipeline 為以下活動提供內建支援:

  • CopyActivity:此活動可在 Amazon S3 和 JDBC 資料來源之間複製資料,或執行 SQL 查詢並將輸出複製到 Amazon S3。
  • HiveActivity:此活動能讓您輕鬆執行 Hive 查詢。
  • EMRActivity:此活動允許您執行任意 Amazon EMR 任務。
  • ShellCommandActivity:此活動允許您執行任意 Linux shell 命令或程式。

問:AWS Data Pipeline 是否提供任何標準先決條件?

是,AWS Data Pipeline 為以下先決條件提供內建支援:

  • DynamoDBDataExists:此先決條件檢查 DynamoDB 表內是否有資料。
  • DynamoDBTableExists:此先決條件檢查 DynamoDB 表是否存在。
  • S3KeyExists:此先決條件檢查特定 Amazon S3 路徑是否存在。
  • S3PrefixExists:此先決條件檢查特定路徑內是否至少有一個檔案。
  • ShellCommandPrecondition:此先決條件在您的資源上執行任意指令碼,並檢查指令碼是否成功。

問:是否能提供自訂活動?

是,您可以使用 ShellCommandActivity 來執行任意活動邏輯。

問:是否能提供自訂先決條件?

是,您可以使用 ShellCommandPrecondition 來執行任意先決條件邏輯。

問:是否能在同一管道中為不同的活動定義多個排程?

是,只需在管道的定義檔中定義多個排程物件,並透過排程欄位將所需的排程關聯到正確的活動即可。這可讓您定義一個管道,例如每小時將日誌檔存放到 Amazon S3 中,以便每天產生一份彙總報告。

問:如果活動失敗,會怎麼樣?

如果所有活動嘗試都傳回失敗狀態,則活動失敗。預設情況下,活動要重試三次才會進入嚴重故障狀態。您可以將自動重試次數增加到 10 次;然而,系統不會允許無限次重試。當活動用完允許的重試次數後,就會觸發任何已設定的 onFailure 警示,且不會再次重試,除非您透過 CLI、API 或主控台按鈕手動發佈重新執行命令。

問:如何在活動新增警示?

您可以定義 Amazon SNS 警示,使其在活動成功、失敗或延遲時觸發警示。建立警示物件,並在活動物件的 onFail、onSuccess 或 onLate 插槽參考該物件。

問:是否可以手動重新執行失敗的活動?

是。將狀態重設為 SCHEDULED,即可重新執行一組已完成或失敗的活動。您可以使用 UI 中的 Rerun 按鈕,或在命令列或 API 中修改其狀態來執行這項操作。此操作會立即排定重新檢查所有活動相依性的檢查,接著會嘗試執行其他活動。活動會在之後的失敗執行原先的重試次數。

問:活動在哪些資源上執行?

AWS Data Pipeline 活動會在您自己的運算資源上執行。運算資源分為兩類:AWS Data Pipeline 受管和自我管理。AWS Data Pipeline 受管資源是 Amazon EMR 叢集或 Amazon EC2 執行個體,AWS Data Pipeline 服務僅在需要時啟動這些資源。您管理的資源是長時間執行資源,可以是能夠執行 AWS Data Pipeline 以 Java 為基礎 Task Runner 的任何資源 (現場部署硬體、客戶管理的 Amazon EC2 執行個體等)。

問:AWS Data Pipeline 是否能為我佈建和終止 AWS Data Pipeline 受管運算資源?

是,當排程時間內使用這些資源的第一個活動準備好執行時,系統就會佈建這些運算資源,而當使用這些資源的最終活動順利完成或失敗時,則會終止這些執行個體。

問:是否可在同一管道中使用多個運算資源?

是,只需在您的定義檔中定義多個叢集物件,並透過 runsOn 欄位關聯每個活動使用的叢集。這允許管道將 AWS 資源與現場部署資源結合起來,或使用混合的執行個體類型來執行活動,例如,您可能希望使用 t1.micro 以便廉價地執行快速指令碼,但是在該管道後期,可能有 Amazon EMR 作業需要大型執行個體叢集的強大功能。

問:是否可在現場部署資源或我管理的 AWS 資源上執行活動?

是。為了使用現場部署資源執行活動,AWS Data Pipeline 提供 Task Runner 套件,該套件可以安裝在您的現場部署主機上。此套件會持續輪詢 AWS Data Pipeline 服務以便執行工作。要在您的現場部署資源上執行特定活動時,例如執行資料庫存放程式或資料庫傾印,AWS Data Pipeline 會向 Task Runner 發佈適當的命令。為了確保您的管道活動高度可用,您可以在指定的任務上選擇性地指派多個 Task Runner 以進行輪詢。如此一來,如果某個 Task Runner 無法使用時,其他 Task Runner 就會接管其工作。

問:如何在我的現場部署主機上安裝 Task Runner?

您可以透過執行以下步驟,在您的現場部署主機上安裝 Task Runner:

  1. 下載 AWS Task Runner 套件。
  2. 建立包含 AWS 登入資料的設定檔。
  3. 透過以下命令啟動 Task Runner 代理:
    java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=[myWorkerGroup]
  4. 定義活動時,將活動設定為在 [myWorkerGroup] 上執行,以便將其分派到之前安裝的主機上。

問:如何開始使用 AWS Data Pipeline?

要開始使用 AWS Data Pipeline,只需存取 AWS 管理主控台並移至 AWS Data Pipeline 標籤即可。您可以在該處使用簡單的圖形編輯器建立管道。

問:AWS Data Pipeline 可以用來做什麼?

使用 AWS Data Pipeline 可以排程並管理定期資料處理任務。您可以用它來取代目前由脆弱的 Cron 解決方案管理的簡單系統,或使用它來建置複雜、多階段的資料處理作業。

問:是否有可試用 AWS Data Pipeline 的範例管道?

是,我們在文件中提供了範例管道。此外,主控台也有數個管道範本,您可以從這些範本入門。

問:可在 AWS Data Pipeline 中建立多少管道?

預設情況下,您的帳戶可以擁有 100 個管道。

問:存放在單一管道中的內容是否有限制?

預設情況下,每個管道可以擁有 100 個物件。

問:是否可以變更限額?

是。如果您希望提升限額,請聯絡我們

問:價格含稅嗎?

除非另有說明,否則我們的價格不包括適用的稅金和稅收 (包括加值稅和適用的營業稅)。 帳單地址在日本的客戶若使用 AWS 服務,則需負擔日本消費稅。進一步了解