開始免費使用 AWS

建立免費帳戶
或者,登入主控台

AWS 免費方案包括 Amazon ElastiCache 提供的 750 小時微型快取節點。

查看 AWS 免費方案詳細資訊 »

問:什麼是 AWS Data Pipeline?

AWS Data Pipeline 是一種 Web 服務,使用該服務可以輕鬆地在 AWS 雲端安排定期資料移動和資料處理活動。AWS Data Pipeline 整合了內部部署和雲端儲存系統,讓開發人員可以隨時隨地以所需的格式使用資料。使用 AWS Data Pipeline 可迅速定義包含資料來源、目的地、預先定義或自訂資料處理活動的相依資料鏈,我們稱之為管道。根據您定義的排程,管道會定期執行各種處理活動,例如分散式資料複製、SQL 轉換、MapReduce 應用程式或針對目的地 (如 Amazon S3、Amazon RDS 或 Amazon DynamoDB) 的自訂指令碼。以高度可擴展且全受管服務的形式執行這些工作流程的排程、重試和故障邏輯,Data Pipeline 可確保您有穩健且高度可用的管道。

問:AWS Data Pipeline 可以用來做什麼?

您可以使用 AWS Data Pipeline,快速輕鬆地佈建無需執行所需開發和維護工作來管理日常資料操作的管道,讓您能夠專注於從這些資料獲取所需洞見。您只需為資料管道指定所需資料來源、排程和處理活動即可。AWS Data Pipeline 在高度可靠且具有容錯功能的基礎架構上處理執行和監控處理的活動。另外,為進一步簡化您的開發程序,AWS Data Pipeline 提供許多內建活動,適用於多種常見動作,如在 Amazon S3 和 Amazon RDS 之間複製資料,或針對 Amazon S3 日誌資料執行查詢。

問:AWS Data Pipeline 與 Amazon Simple Workflow Service 有什麼區別?

雖然兩種服務都提供執行追蹤、處理重試和例外狀況,以及執行任意動作的功能,但 AWS Data Pipeline 是專為促進執行大部分資料驅動型工作流程中常見的特定步驟所設計。例如:輸入資料符合特定的整備條件後執行各種活動、輕鬆地在不同資料存放區之間複製資料,以及排程鏈結的轉換。這種高度專注代表沒有程式碼或程式設計知識也可以快速建立 Data Pipeline 工作流程定義。

問:什麼是管道?

管道即 AWS Data Pipeline 資源,其中包含執行商業邏輯所需的資料來源、目的地和預先定義或自訂資料處理活動所組成的相依資料鏈的定義。

問:什麼是資料節點?

資料節點代表您的業務資料。例如,資料節點可以引用特定的 Amazon S3 路徑。AWS Data Pipeline 支援表達式語言,使其輕鬆引用定期產生的資料。例如,您可以將 Amazon S3 資料的格式指定為:s3://example-bucket/my-logs/logdata-#{scheduledStartTime('YYYY-MM-dd-HH')}.tgz。

問:什麼是活動?

活動是 AWS Data Pipeline 代表您啟動的動作,它是管道的一部分。範例活動包括 EMR 或 Hive 任務、複製、SQL 查詢或命令列指令碼。

問:什麼是先決條件?

先決條件是一種整備檢查,可選擇性地與資料來源或活動建立關聯。如果資料來源有先決條件檢查,則必須先成功完成檢查,才能啟動任何需要用到該資料來源的活動。如果活動有先決條件,則必須先成功完成先決條件檢查才能執行活動。如果您執行的活動運算起來非常昂貴,並且在未滿足特定條件前不得執行,這將會非常有用。

問:什麼是排程?

排程定義管道活動執行的時間和服務預計資料可用的頻率。所有排程都必須有開始日期和頻率;例如,每天從 2013 年 1 月 1 日下午 3 點開始。您可以選擇性地設定排程結束日期,在此時間後,AWS Data Pipeline 服務將不執行任何活動。建立排程與活動的關聯後,活動就會按排程執行。建立排程與資料來源的關聯時,也就是告知 AWS Data Pipeline 服務,您期望資料按照該排程更新。例如,如果您以小時排程定義 Amazon S3 資料來源,服務就會預期資料來源每小時都會有新的檔案。



問:Data Pipeline 是否提供任何標準活動?

是,AWS Data Pipeline 為以下活動提供內建支援:

  • CopyActivity:此活動可在 Amazon S3 和 JDBC 資料來源之間複製資料,或執行 SQL 查詢並將輸出複製到 Amazon S3。
  • HiveActivity:此活動讓您可以輕鬆執行 Hive 查詢。
  • EMRActivity:此活動讓您可以執行任意 Amazon EMR 任務。
  • ShellCommandActivity:此活動讓您可以執行任意 Linux shell 命令或程式。

問:AWS Data Pipeline 是否提供任何標準先決條件?

是,AWS Data Pipeline 為以下先決條件提供內建支援:

  • DynamoDBDataExists:此先決條件檢查 DynamoDB 表內是否有資料。
  • DynamoDBTableExists:此先決條件檢查 DynamoDB 表是否存在。
  • S3KeyExists:此先決條件檢查特定 Amazon S3 路徑是否存在。
  • S3PrefixExists:此先決條件檢查特定路徑內是否至少有一個檔案。
  • ShellCommandPrecondition:此先決條件在您的資源上執行任意指令碼,並檢查指令碼是否成功。

問:是否能提供自訂活動?

是,您可以使用 ShellCommandActivity 來執行任意活動邏輯。

問:是否能提供自訂先決條件?

是,您可以使用 ShellCommandPrecondition 來執行任意先決條件邏輯。

問:是否能在同一管道中為不同的活動定義多個排程?

是,只需在管道的定義檔中定義多個排程物件,並透過排程欄位將所需的排程關聯到正確的活動即可。這讓您可以定義一個管道,例如在其中每小時將日誌檔存放到 Amazon S3 中,以便每天產生一份彙總報告。

問:如果活動失敗,會怎麼樣?

如果所有活動嘗試都傳回失敗狀態,則活動失敗。預設情況下,活動要重試三次才會進入嚴重失敗狀態。您可以將自動重試次數增加到 10 次;然而,系統不會允許無限次重試。當活動用完允許的重試次數後,就會觸發任何已設定的 onFailure 警示,且不會再次嘗試執行,除非您透過 CLI、API 或主控台按鈕手動發佈重新執行命令。

問:如何在活動中新增警示?

您可以定義 Amazon SNS 警示,以便在活動成功、失敗或延遲時觸發警示。建立警示物件,並在活動物件的 onFail、onSuccess 或 onLate 插槽中引用該物件。

問:是否可以手動重新執行失敗的活動?

是,將狀態重設為 SCHEDULED,即可重新執行一組已完成或失敗的活動。您可以使用 UI 中的「重新執行」按鈕,或在命令列或 API 中修改其狀態來執行這項操作。此操作會立即排定重新檢查所有活動相依性,接著會嘗試執行其他活動。活動會在之後的失敗後執行原先的重試次數。

問:活動在哪些資源上執行?

AWS Data Pipeline 活動在您自己的運算資源上執行。運算資源分為兩類:AWS Data Pipeline 受管資源和自我管理資源。AWS Data Pipeline 受管資源是 Amazon EMR 叢集或 Amazon EC2 執行個體,AWS Data Pipeline 服務僅在需要時啟動這些資源。您管理的資源是長時間執行資源,可以是能夠執行 AWS Data Pipeline Java 型 Task Runner 的任何資源 (內部部署硬體、客戶管理的 Amazon EC2 執行個體等)。

問:AWS Data Pipeline 是否能為我佈建和終止 AWS Data Pipeline 管理的運算資源?

是,當排程時間內使用這些資源的第一個活動準備好執行時,系統就會佈建這些運算資源,而當使用這些資源的最終活動成功完成或失敗時,則會終止這些執行個體。

問:是否可在同一管道中使用多個運算資源?

是,只需在您的定義檔中定義多個叢集物件,並透過 runsOn 欄位關聯每個活動使用的叢集。這允許管道將 AWS 資源與內部部署資源結合起來,或使用混合的執行個體類型來執行活動,例如,您可能希望使用 t1.micro 以便廉價地執行快速指令碼,但是在該管道後期,可能有 Amazon EMR 任務需要較大型執行個體叢集的強大功能。

問:是否可在內部部署資源或我管理的 AWS 資源上執行活動?

是,為了使用內部部署資源執行活動,AWS Data Pipeline 提供 Task Runner 套件,該套件可以安裝在您的現場部署主機上。此套件會持續輪詢 AWS Data Pipeline 服務以便執行工作。要在您的內部部署資源上執行特定活動時,例如執行資料庫存放程序或資料庫傾印,AWS Data Pipeline 會向 Task Runner 發佈適當的命令。為確保您的管道活動高度可用,您可以為指定任務選擇性地指派多個 Task Runner 以進行輪詢。如此一來,如果某個 Task Runner 無法使用時,其他 Task Runner 就會接管其工作。

問:如何在我的內部部署主機上安裝 Task Runner?

您可以透過執行以下步驟,在您的內部部署主機上安裝 Task Runner 套件:

  1. 下載 AWS Task Runner 套件。
  2. 建立包含 AWS 登入資料的設定檔。
  3. 透過以下命令啟動 Task Runner 代理:
    java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=[myWorkerGroup]
  4. 定義活動時,將活動設定為在 [myWorkerGroup] 上執行,以便將其分派到之前安裝的主機上。

問:如何開始使用 AWS Data Pipeline?

要開始使用 AWS Data Pipeline,只需存取 AWS 管理主控台並移至 AWS Data Pipeline 標籤即可。您可以在該處使用簡單的圖形編輯器建立管道。

問:AWS Data Pipeline 可以用來做什麼?

您可以使用 AWS Data Pipeline 排程並管理定期資料處理任務。您可以用它來取代目前由脆弱的 Cron 解決方案管理的簡單系統,或使用它來建置複雜、多階段的資料處理任務。

問:是否有可試用 AWS Data Pipeline 的範例管道?

是,我們在文件中提供了範例管道。此外,主控台也有數個管道範本,您可以從這些範本入門。

問:可在 AWS Data Pipeline 中建立多少個管道?

預設情況下,您的帳戶可以擁有 100 個管道。

問:存放在單一管道中的內容是否有限制?

預設情況下,每個管道可以擁有 100 個物件。

問:是否可以變更限額?

是,如果您希望提升限值,請聯絡我們

問:價格含稅嗎?

除非另有說明,否則我們的價格不包括適用的稅金和稅收 (包括加值稅和適用的營業稅)。 帳單地址在日本的客戶若使用 AWS 服務,則需負擔日本消費稅。進一步了解