AWS Data Pipeline 是一種 Web 服務,可協助您以指定的間隔,可靠地在不同 AWS 運算與儲存服務以及內部部署資料來源之間處理和移動資料。使用 AWS Data Pipeline,您可以時常從資料的存放處直接存取、大規模轉換和處理這些資料,並將結果有效率地傳輸到 Amazon S3、Amazon RDS、Amazon DynamoDB 和 Amazon EMR 等 AWS 服務。
AWS Data Pipeline 可協助您輕鬆地建立容錯、可重複且高可用性的複雜資料處理工作負載。您不用擔心如何確保資源可用性、管理內部任務相依性、發生暫時性故障或逾時問題時重試個別任務,或建立故障通知系統等事項。AWS Data Pipeline 還可讓您移動和處理之前在內部部署獨立資料區塊中鎖定的資料。

可靠
AWS Data Pipeline 建置在專為容錯執行活動而設計的分散式高可用性基礎設施之中。如果您的活動邏輯或資料來源中發生故障,AWS Data Pipeline 會自動重試該活動。如果故障仍然存在,AWS Data Pipeline 會透過 Amazon Simple Notification Service (Amazon SNS) 傳送故障通知給您。 您可以針對成功執行、計劃的活動延遲或故障設定通知。

易於使用
您可以透過我們的拖放主控台輕鬆快速地建立管道。常見的先決條件已內建在服務之中,因此無須撰寫任何額外的邏輯即可使用。例如,要檢查某個 Amazon S3 檔案是否存在,您只需提供 Amazon S3 儲存貯體的名稱和要檢查的檔案路徑,AWS Data Pipeline 就會處理其餘的工作。
除了易用的視覺化管道建立程式之外,AWS Data Pipeline 還提供管道範本庫。這些範本讓您能夠輕鬆地為一些較複雜的使用案例建立管道,例如,定期處理日誌檔案、將資料存檔到 Amazon S3,或執行週期性 SQL 查詢。

靈活
AWS Data Pipeline 讓您能夠充分利用各種功能,例如,排程、相依性追蹤和錯誤處理。您可以使用 AWS 提供和 (或) 自己編寫的活動和先決條件。這表示您可以設定 AWS Data Pipeline 來採取一些動作,例如,執行 Amazon EMR 任務、直接對資料庫執行 SQL 查詢、執行在 Amazon EC2 或自有資料中心執行的自訂應用程式。這樣您就能夠建立功能強大的管道來分析和處理資料,而無須處理與可靠地排程和執行應用程式邏輯相關的複雜問題。

可擴展性
不管是以序列或平行方式將工作分配給一部或多部機器,對 AWS Data Pipeline 而言都是輕而易舉。利用 AWS Data Pipeline 的靈活設計,處理一百萬個檔案就像處理一個檔案一樣簡單。

透明
您可以完全掌控用來執行商業邏輯的運算資源,讓增強或偵錯邏輯更容易。此外,系統會將完整的執行日誌自動交付到 Amazon S3,讓您保有管道中所發生事件的持續詳盡記錄。