マネージド型の ETL (Extract-Transform-Load) サービスとして、AWS Data Pipeline はさまざまな AWS のサービスにわたり、またオンプレミスリソースにもわたって、データの動きと変換を定義できるようにします。Data Pipeline を使用すると、依存するプロセスを定義して、貴社のデータや、続けて実行される EMR ジョブや SQL クエリのようなアクティビティやビジネスロジック、貴社のビジネスロジックにより実行されるスケジュールを含むデータノードで構成されるパイプラインを作成できます。

例えば、Amazon S3 に保存したクリックストリームデータを Amazon Redshift に移動したい場合、ログファイルを格納した S3DataNode、ログファイルを Amazon EMR クラスタを使用して .csv ファイルに変換して元の S3 に保存する HiveActivity、データを S3 から Redshift にコピーする RedshiftCopyActivity、それに貴社の Redshift クラスターに接続する RedshiftDataNode でパイプラインを定義します。これができればスケジュールを選んで、1 日の終わりに実行します。

AWS Data Pipeline で、クリックストリームデータを Amazon S3 から Amazon Redshift に移動する

AWS Data Pipeline を使用して、クリックストリームデータを Amazon S3 から Amazon Redshift に移動します。

AWS を無料でお試しください

無料アカウント作成
またはコンソールにサインイン

AWS 無料利用枠には、AWS Data Pipeline の低頻度の前提条件 3 つと低頻度のアクティビティ 5 つが含まれています。

AWS 無料利用枠の詳細はこちら »

また特定のアクティビティを開始する前にデータが利用可能かどうかを確認するための前提条件も定義できます。上記の例では、S3DataNode に前提条件を設定して、HiveActivity 開始前にログファイルが利用可能かどうかを確認できます。

AWS Data Pipeline は以下の処理を行います。

  • ジョブのスケジュール設定、実行、および再試行ロジック。
  • ビジネスロジック、データソース、およびそれまでの処理ステップの依存関係を追跡 (依存関係がすべて満たされるユーザーのロジックが実行されないようにする)。
  • 必要な失敗通知の送信。
  • ジョブに必要なコンピューティングリソースの作成と管理。

 

ユースケース

Amazon Redshift への ETL データ

RDS または DynamoDB テーブルを S3 にコピーし、データ構造を変換し、SQL クエリを使用して分析を実行し、これを Redshift にロードします。

ETL 非構造化データ

Hive または Pig を EMR で使用してクリックストリームログなどの非構造化データを分析し、これを RDS からの構造化データと組み合わせ、それを Redshift にアップロードして容易にクエリできるようにします。

AWS ログデータを Amazon Redshift にロード

AWS 請求ログ、AWS CloudTrail、Amazon CloudFront、Amazon CloudWatch ログなどのログファイルを、Amazon S3 から Redshift にロードします。

データのローディングを抽出

RDS または Redshift テーブルから S3 にデータをコピー、またはその逆を行います。

クラウドに移行する

MySQL データベースなどのオンプレミスのデータストアから容易にデータをコピーして、S3 などの AWS データストアに移動して、Amazon EMR、Amazon Redshift、Amazon RDS などのさまざまな AWS のサービスで使えるようにします。

 

Amazon DynamoDB のバックアップと復旧

お使いの Dynamo DB テーブルを、災害復旧用に定期的に S3 にバックアップします。

AWS Data Pipeline は、AWS マネジメントコンソールAWS コマンドラインインターフェイス、またはサービス API で今すぐ使い始められます。