AWS Glue

シンプルかつ柔軟で、費用対効果の高い ETL

AWS Glue は抽出、変換、ロード (ETL) を行う完全マネージド型のサービスで、お客様の分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue データカタログに保存されます。カタログに保存されると、データはすぐに検索かつクエリ可能になり、ETL に使用できるようになります。

AWS Glue の紹介 (日本語字幕) (1:47)

メリット

手間がかからない

AWS Glue は幅広い AWS のサービスに統合されているため、オンボーディング時の手間がかかりません。AWS Glue は、Amazon Aurora、およびその他すべての Amazon RDS エンジン、Amazon Redshift、Amazon S3 に保存されたデータに加えて、Amazon EC2 で実行されている Virtual Private Cloud (Amazon VPC) 内の一般的な データベースエンジンとデータベースもネイティブにサポートされます。

優れたコスト効率性

AWS Glue はサーバーレスです。お客様がインフラストラクチャをプロビジョニングおよび管理する必要はありません。AWS Glue 側で、ETL ジョブの実行に必要なリソースのプロビジョニング、設定、スケーリングが処理され、フルマネージド型の Apache Spark スケールアウト環境で実行できるようになります。お支払いは、ジョブの実行中に使用されたリソースの料金のみになります。

より優れた能力

AWS Glue は、ETL ジョブの構築、維持、および実行における作業のほとんどを自動化します。AWS Glue はデータソースをクロールし、データフォーマットを識別して、スキーマと変換を提案します。AWS Glue は、データの変換とロードプロセスを実行するコードを自動的に生成します。

 

 

仕組み

データのソースとターゲットを選択します。AWS Glue では Scala または Python で ETL コードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。生成されたコードは、コンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 1: データカタログを構築する
screenshot-glue-step1-data-catalog2b

まず、AWS マネジメントコンソールを使用して、データソースを登録します。AWS Glue によってデータソースがクロールされ、JSON、CSV、Parquet といった多くの一般的なソースフォーマットやデータタイプに対して事前に構築された分類子を使用してデータカタログが構築されます。

ステップ 2: データ変換を生成および編集する
screenshot-glue-step2-etl-generation4

次に、データのソースとターゲットを選択します。AWS Glue では Scala または Python で ETL コードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。生成されたコードは、コンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 3: ジョブをスケジュールして実行する
screenshot-glue-step3-orchestration2

AWS Glue では、定期的な ETL ジョブのスケジューリング、複数のジョブの連結、AWS Lambda といった他のサービスからのオンデマンドによるジョブ呼び出しを簡単に実行できます。AWS Glue では、ジョブ間の依存関係が管理され、基盤となるリソースが自動的にスケールされ、失敗したジョブが自動的に再試行されます。

詳細については、AWS Glue の特徴ページをご覧いただくか、AWS の製品ドキュメントを参照してください。

ユースケース

Amazon S3 のデータレイクに対するクエリ

データレイクは、構造化データと非構造化データ両方の保存と分析を行う手段として人気が高まっています。カスタム Amazon S3 データレイクを構築したい場合、AWS Glue は、データを移動させることなく、それらすべてを分析用に直ちに使用できるようにします。

数日間でセキュアなデータレイクを構築するために、AWS Lake Formation の詳細をご覧ください。

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

データウェアハウスのログデータの分析

AWS Glue を使用すると、データセットをクリーニング、正規化、エンリッチして、分析のためにクリックストリームの準備やログデータの処理を実行できます。AWS Glue では、半構造化データに対するスキーマの生成、データを変換、平坦化、エンリッチするための ETL コードの作成、データウェアハウスからの定期的なロードを実行できます。

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

複数のデータストアにわたるデータの統合ビュー

AWS Glue データカタログを使用すると、AWS の複数のデータセットに配置されたデータを、移動せずに簡単に検出および検索できます。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

イベント駆動型の ETL パイプライン

AWS Glue では、新しいデータセットの取得といったイベントに基づいて ETL ジョブを実行できます。例えば、AWS Lambda 関数を使用して、新しいデータが Amazon S3 で利用可能になるとすぐに ETL ジョブがトリガーされるように設定できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

product-page-diagram_Glue_Event-driven-ETL-Pipelines

AWS の使用を開始する

icon1

AWS アカウントにサインアップする

AWS 無料利用枠をすぐに利用できます。
icon2

10 分間チュートリアルで学ぶ

簡単なチュートリアルで学習します。
icon3

AWS で構築を開始する

ステップバイステップガイドに従って構築を開始すれば、 AWS プロジェクトを立ち上げることができます。
構築の準備はできましたか?
AWS Glue の使用を開始する
ご不明な点がおありですか?
お問い合わせ