AWS Glue

シンプルかつ柔軟で、費用対効果の高い ETL

AWS Glue は抽出、変換、ロード (ETL) を行う完全マネージド型のサービスで、お客様の分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue データカタログに保存されます。カタログに保存されると、データはすぐに検索かつクエリ可能になり、ETL に使用できるようになります。

AWS Glue の紹介 (日本語字幕) (1:47)

メリット

手間がかからない

AWS Glue は幅広い AWS のサービスに統合されているため、オンボーディング時の手間がかかりません。AWS Glue は、Amazon Aurora、およびその他すべての Amazon RDS エンジン、Amazon Redshift、Amazon S3 に保存されたデータに加えて、Amazon EC2 で実行されている Virtual Private Cloud (Amazon VPC) 内の一般的な データベースエンジンとデータベースもネイティブにサポートされます。

優れたコスト効率性

AWS Glue はサーバーレスです。お客様がインフラストラクチャをプロビジョニングおよび管理する必要はありません。AWS Glue 側で、ETL ジョブの実行に必要なリソースのプロビジョニング、設定、スケーリングが処理され、フルマネージド型の Apache Spark スケールアウト環境で実行できるようになります。お支払いは、ジョブの実行中に使用されたリソースの料金のみになります。

より優れた能力

AWS Glue は、ETL ジョブの構築、維持、および実行における作業のほとんどを自動化します。AWS Glue はデータソースをクロールし、データフォーマットを識別して、スキーマと変換を提案します。AWS Glue は、データの変換とロードプロセスを実行するコードを自動的に生成します。

 

 

仕組み

データのソースとターゲットを選択します。AWS Glue では Scala または Python で ETL コードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。生成されたコードは、コンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 1: データカタログを構築する
データカタログを構築するステップ

まず、AWS マネジメントコンソールを使用して、データソースを登録します。AWS Glue によってデータソースがクロールされ、JSON、CSV、Parquet といった多くの一般的なソースフォーマットやデータタイプに対して事前に構築された分類子を使用してデータカタログが構築されます。

ステップ 2: データ変換を生成および編集する
データ変換を生成および編集するステップ

次に、データソースとデータターゲットを選択します。AWS Glue では Scala または Python で ETL コードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。生成されたコードは、コンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 3: ジョブをスケジュールして実行する
ジョブをスケジュールして実行するステップ

AWS Glue では、定期的な ETL ジョブのスケジューリング、複数のジョブの連結、AWS Lambda といったほかのサービスからのオンデマンドによるジョブ呼び出しを簡単に実行できます。AWS Glue では、ジョブ間の依存関係が管理され、基盤となるリソースが自動的にスケールされ、失敗したジョブが自動的に再試行されます。

詳細については、AWS Glue の特徴ページをご覧いただくか、AWS の製品ドキュメントを参照してください。

ユースケース

Amazon S3 のデータレイクに対するクエリ

データレイクは、構造化データと非構造化データ両方の保存と分析を行う手段として人気が高まっています。カスタム Amazon S3 データレイクを構築したい場合、AWS Glue は、データを移動させることなく、それらすべてを分析用に直ちに使用できるようにします。

数日間で安全なデータレイクを構築するために、AWS Lake Formation の詳細をご覧ください。

Amazon S3 のデータレイクに対するクエリ図

データウェアハウスのログデータの分析

AWS Glue を使用すると、データセットをクリーニング、正規化、エンリッチして、分析のためにクリックストリームの準備やログデータの処理を実行できます。AWS Glue では、半構造化データに対するスキーマの生成、データを変換、フラット化、強化するための ETL コードの作成、データウェアハウスからの定期的なロードを実行できます。

データウェアハウスのログデータの分析図

複数のデータストアにわたるデータの統合ビュー

AWS Glue データカタログを使用すると、AWS の複数のデータセットに配置されたデータを、移動せずに簡単に検出および検索できます。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

データストア全体のデータの表示図

イベント駆動型の ETL パイプライン

AWS Glue では、新しいデータセットの取得といったイベントに基づいて ETL ジョブを実行できます。例えば、AWS Lambda 関数を使用して、新しいデータが Amazon S3 で利用可能になるとすぐに ETL ジョブがトリガーされるように設定できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

イベント駆動型の ETL パイプライン図
ウェブページの画像
製品の特徴を見る

AWS Glue の主な機能をご覧ください。

詳細 
アカウントサインアップの画像
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
ツールボックスの画像
コンソールで構築を開始する

AWS マネジメントコンソールで AWS Glue を使った構築を始めましょう。

サインイン