マネージド型の ETL (Extract-Transform-Load) サービスとして、AWS Data Pipeline はさまざまな AWS のサービスにわたり、またオンプレミスリソースにもわたって、データの動きと変換を定義できるようにします。Data Pipeline を使用すると、依存するプロセスを定義して、貴社のデータや、続けて実行される EMR ジョブや SQL クエリのようなアクティビティやビジネスロジック、貴社のビジネスロジックにより実行されるスケジュールを含むデータノードで構成されるパイプラインを作成できます。
例えば、Amazon S3 に保存したクリックストリームデータを Amazon Redshift に移動したい場合、ログファイルを格納した S3DataNode、ログファイルを Amazon EMR クラスタを使用して .csv ファイルに変換して元の S3 に保存する HiveActivity、データを S3 から Redshift にコピーする RedshiftCopyActivity、それに貴社の Redshift クラスターに接続する RedshiftDataNode でパイプラインを定義します。これができればスケジュールを選んで、1 日の終わりに実行します。

AWS Data Pipeline を使用して、クリックストリームデータを Amazon S3 から Amazon Redshift に移動します。
AWS を無料でお試しください
無料アカウント作成またはコンソールにサインイン
AWS 無料利用枠には、AWS Data Pipeline の低頻度の前提条件 3 つと低頻度のアクティビティ 5 つが含まれています。
また特定のアクティビティを開始する前にデータが利用可能かどうかを確認するための前提条件も定義できます。上記の例では、S3DataNode に前提条件を設定して、HiveActivity 開始前にログファイルが利用可能かどうかを確認できます。
AWS Data Pipeline は以下の処理を行います。
- ジョブのスケジュール設定、実行、および再試行ロジック。
- ビジネスロジック、データソース、およびそれまでの処理ステップの依存関係を追跡 (依存関係がすべて満たされるユーザーのロジックが実行されないようにする)。
- 必要な失敗通知の送信。
- ジョブに必要なコンピューティングリソースの作成と管理。

Amazon Redshift への ETL データ
RDS または DynamoDB テーブルを S3 にコピーし、データ構造を変換し、SQL クエリを使用して分析を実行し、これを Redshift にロードします。
ETL 非構造化データ
Hive または Pig を EMR で使用してクリックストリームログなどの非構造化データを分析し、これを RDS からの構造化データと組み合わせ、それを Redshift にアップロードして容易にクエリできるようにします。
AWS ログデータを Amazon Redshift にロード
AWS 請求ログ、AWS CloudTrail、Amazon CloudFront、Amazon CloudWatch ログなどのログファイルを、Amazon S3 から Redshift にロードします。
データのローディングを抽出
RDS または Redshift テーブルから S3 にデータをコピー、またはその逆を行います。
クラウドに移行する
MySQL データベースなどのオンプレミスのデータストアから容易にデータをコピーして、S3 などの AWS データストアに移動して、Amazon EMR、Amazon Redshift、Amazon RDS などのさまざまな AWS のサービスで使えるようにします。
Amazon DynamoDB のバックアップと復旧
お使いの Dynamo DB テーブルを、災害復旧用に定期的に S3 にバックアップします。
AWS Data Pipeline は、AWS マネジメントコンソール、AWS コマンドラインインターフェイス、またはサービス API で今すぐ使い始められます。