AWS Glue

シンプルかつ柔軟で、費用対効果の高い ETL

AWS Glue は抽出、変換、ロード (ETL) を行う完全マネージド型のサービスで、お客様の分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue データカタログに保存されます。カタログに保存されると、データはすぐに検索かつクエリ可能になり、ETL に使用できるようになります。

AWS Glue の紹介 (日本語字幕) (1:47)

メリット

手間がかからない

AWS Glue は幅広い AWS のサービスに統合されているため、オンボーディング時の手間がかかりません。AWS Glue は、Amazon Aurora、およびその他すべての Amazon RDS エンジン、Amazon Redshift、Amazon S3 に保存されたデータに加えて、Amazon EC2 で実行されている Virtual Private Cloud (Amazon VPC) 内の一般的な データベースエンジンとデータベースもネイティブにサポートされます。

優れたコスト効率性

AWS Glue はサーバーレスです。お客様がインフラストラクチャをプロビジョニングおよび管理する必要はありません。AWS Glue 側で、ETL ジョブの実行に必要なリソースのプロビジョニング、設定、スケーリングが処理され、フルマネージド型の Apache Spark スケールアウト環境で実行できるようになります。お支払いは、ジョブの実行中に使用されたリソースの料金のみになります。

より優れた能力

AWS Glue では、手間のかかる ETL ジョブの構築、管理、実行のほとんどが自動化されます。AWS Glue はデータソースを自動的にクロールし、データフォーマットを識別してスキーマと変換を提案します。AWS Glue は、データの変換とロードプロセスを実行するコードを自動的に生成します。

AWS Glue 機能の説明

データのソースとターゲットを選択します。AWS Glue では Scala または Python で ETL コードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。生成されたコードは、コンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 1: データカタログを構築する
ステップ 1: データカタログを構築する

まず、AWS マネジメントコンソールを使用して、データソースを登録します。AWS Glue によってデータソースがクロールされ、JSON、CSV、Parquet といった多くの一般的なソースフォーマットやデータタイプに対して事前に構築された分類子を使用してデータカタログが構築されます。

ステップ 2: 変換の生成と編集を実行する
ステップ 2: 変換の生成と編集を実行する

次に、データソースとデータターゲットを選択します。AWS Glue では Scala または Python で ETL コードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。生成されたコードは、コンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 3: ジョブをスケジュールして実行する
ステップ 3: ジョブをスケジュールして実行する

AWS Glue は、定期的な ETL ジョブのスケジュール、複数ジョブのチェーン化、または AWS Lambda などのその他サービスからのオンデマンドでのジョブの呼び出しを容易にします。AWS Glue では、ジョブ間の依存関係が管理され、基盤となるリソースが自動的にスケールされ、失敗したジョブが自動的に再試行されます。

詳細については、AWS Glue の特徴ページをご覧いただくか、AWS の製品ドキュメントを参照してください。

ユースケース

Amazon S3 データレイクに対するクエリ

データレイクは、構造化データと非構造化データ両方の保存と分析を行う手段として人気が高まっています。カスタム Amazon S3 データレイクを構築したい場合、AWS Glue は、データを移動させることなく、それらすべてを分析用に直ちに使用できるようにします。

数日間で安全なデータレイクを構築するために、AWS Lake Formation の詳細をご覧ください。

Amazon S3 データレイクに対するクエリ図

データウェアハウス内のログデータの分析

AWS Glue を使用してデータセットのクリーニング、正規化、およびリッチ化を行うことで、分析のためにクリックストリームを準備、またはログデータを処理します。AWS Glue では、半構造化データに対するスキーマの生成、データを変換、フラット化、強化するための ETL コードの作成、データウェアハウスからの定期的なロードを実行できます。

データウェアハウス内のログデータの分析図

複数のデータストアにまたがるデータの統合ビュー

データを移動させることなく、AWS の複数のデータセットで素早く検出および検索を行うには、AWS Glue データカタログを使用できます。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

複数のデータストアにおけるデータの全体図

イベント駆動型の ETL パイプライン

AWS Glue は、新しいデータセットの取得などのイベントに基づいて ETL ジョブを実行できます。例えば、AWS Lambda 関数を使用して、新しいデータが Amazon S3 で利用可能になるとすぐに ETL ジョブがトリガーされるように設定できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

イベント駆動型の ETL パイプライン図

最新情報

「日付」
  • 「日付」
1
AWS Glue の特徴
AWS Glue の特徴をチェックする

AWS Glue の主な特徴について学びましょう。

詳細はこちらから 
AWS アカウントにサインアップする
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する
コンソールで構築を開始する

AWS マネジメントコンソールで AWS Glue を使った構築を始めましょう。

サインイン