マネージド型の ETL (Extract-Transform-Load) サービスとして、AWS Data Pipeline は様々な AWS サービスにわたり、またオンプレミスリソースにもわたって、データの動きと変換を定義できるようにします。Data Pipeline を用いると、依存するプロセスを定義して、貴社のデータや、続けて実行される EMR ジョブや SQL クエリのようなアクティビティやビジネスロジック、貴社のビジネスロジックが実行するスケジュールを含むデータノードで構成されるパイプラインを作成できます。

例えば、Amazon S3 に保存したクリックストリームデータを Amazon Redshift に移動したい場合、ログファイルを格納した S3DataNode、ログファイルを Amazon EMR クラスタを用いて .csv ファイルに変換して元の S3 に保存する HiveActivity、データを S3 からRedshift にコピーする RedshiftCopyActivity、それに貴社のRedshift クラスターに接続する RedshiftDataNode でパイプラインを定義します。これができればスケジュールを選んで、一日の終わりに実行します。

ExampleWorkflow

プレイスホルダー: AWS Data Pipeline を用いて、クリックストリームデータを Amazon S3 から Amazon Redshift に移動します。

AWS を無料でお試しください

まずは無料で始める
またはコンソールにサインイン

AWS 無料利用枠には、AWS Data Pipeline の低頻度の前提条件 3 つと低頻度のアクティビティ 5 つが含まれています。

AWS 無料利用枠の詳細はこちら »

また特定のアクティビティを開始する前にデータが利用可能かどうかを確認するための前提条件も定義できます。上の例では、S3DataNode に前提条件を設定して、HiveActivity 開始前にログファイルが利用可能かどうかを確認できます。

AWS Data Pipeline は以下の処理を行います。

  • ジョブのスケジュール設定、実行、および再試行ロジック.
  • ビジネスロジック、データソース、およびそれまでの処理ステップの依存関係の追跡 (依存関係がすべて満たされるユーザーのロジックが実行されないようにする)。
  • 必要な失敗通知の送信。
  • ジョブに必要なコンピューティングリソースの作成と管理。

 

Cognito_page_divider

Amazon Redshift への ETL データ

RDS または DynamoDB テーブルを S3 にコピーし、データ構造を変換し、SQL クエリを用いて分析を実行し、これを Redshift にロードします。

ETL 非構造化データ

Hive または Pig を EMR で使用してクリックストリームデータなどの非構造化データを分析し、これを RDS からの構造化データと組み合わせ、それを Redshift にアップロードして容易にクエリできるようにします。

AWS ログデータを Amazon Redshift にロード

AWS 請求ログ、AWS CloudTrail、Amazon CloudFront、Amazon CloudWatch ログなどのログファイルを、Amazon S3 から Redshift にロードします。

データのローディングを抽出

RDS または Redshift テーブルから S3 にデータをコピー、またはその逆を行います。

クラウドに移行する

MySQL データベースなどのオンプレミスのデータストアから容易にデータをコピーして、S3 などの AWS データストアに移動して、Amazon EMR、Amazon Redshift、Amazon RDS などの様々な AWS サービスで使えるようにします。

 

Amazon DynamoDB のバックアップと復旧

お使いの Dynamo DB テーブルを、災害復旧用に定期的に S3 にバックアップします。

AWS Data Pipeline は、AWS マネジメントコンソールAWS コマンドラインインターフェイス、またはサービス API で今すぐ使い始められます。