AWS Data Pipeline は、データ駆動型ワークフロー用の簡単な管理システムを提供するウェブサービスです。AWS Data Pipeline を使用して、パイプラインを定義します。パイプラインは、お客様のデータを含む「データソース」、「アクティビティ」または EMR ジョブまたは SQL クエリのようなビジネスロジック、そして、お客様のビジネスロジックを実行する「スケジュール」で構成されます。例えば、1 時間ごとに、その 1 時間分の Amazon Simple Storage Service(Amazon S3)のログデータの Amazon Elastic MapReduce(Amazon EMR)による分析を実行し、その結果を今後参照できるようにリレーショナルデータベースにロードし、日次の概要を自動的にメールでお客様に送信するジョブを定義できます。

AWS Data Pipeline は以下の処理を行います。

  • ジョブのスケジュール設定、実行、および再試行ロジック
  • ビジネスロジック、データソース、およびそれまでの処理ステップの依存関係の追跡(依存関係がすべて満たされるユーザーのロジックが実行されないようにする)
  • 必要な失敗通知の送信
  • ジョブに必要な一時コンピューティングリソースの作成と管理

AWS を無料でお試しください

まずは無料で始める »
またはコンソールにサインイン

AWS 無料利用枠には、AWS Data Pipeline の低頻度の前提条件 3 つと低頻度のアクティビティ 5 つが含まれています。

AWS アカウント作成の流れはこちら »

アクティビティの実行前にデータが利用可能であることを確実にするために、AWS Data Pipeline を使用してデータの可用性チェック(「前提条件」と呼ばれます)をオプションで作成することができます。これらのチェックはデータの可用性を繰り返し確認し、前提条件が満たされるまで依存関係にあるアクティビティが実行されないようにブロックします。

AWS Data Pipeline を使用するには、以下のことを実行します。

  • AWS マネジメントコンソール、コマンドラインインターフェイス、またはサービス API を使用して、データソース、前提条件、アクティビティ、それらを実行するスケジュール、オプションの通知条件などを定義する
  • 使用するときにデータが利用可能ではない場合、またはアクティビティにエラーが発生した場合に、設定可能な自動通知を受信する

AWS マネジメントコンソールのテンプレートセクションで、さまざまな一般的な AWS Data Pipeline タスクを参照してお使いいただけます。以下のタスクが含まれます。

  • Amazon S3 ベースのログデータの 1 時間ごとの分析
  • AmazonDynamoDB データから Amazon S3 への日次レプリケーション
  • オンプレミスの JDBC データベーステーブルから RDS への定期的なレプリケーション

詳細については、AWS Data Pipeline Developer Guide を参照してください。

このサービスのご利用には、アマゾン ウェブ サービスカスタマーアグリーメントが適用されます。