AWS Glue

シンプルでスケーラブルなサーバーレスデータ統合

AWS Glue は、分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える、サーバーレスデータ統合サービスです。AWS Glue はデータ統合に必要なすべての機能を備えているため、数か月ではなく、数分でデータを分析し、使用可能にします。

データ統合は、分析、機械学習、アプリケーション開発のためのデータ準備と結合のプロセスです。これには、さまざまなソースからのデータの検出と抽出など、複数のタスクが含まれます。例えば、データの強化、クリーニング、正規化、結合や、 データベース、データウェアハウス、およびデータレイクにデータをロードして整理することなどです。これらのタスクは、それぞれ異なる製品を使用する異なるタイプのユーザーにより処理されます。

AWS Glue は、データ統合を容易にするために、視覚化インターフェイスとコードベースのインターフェイスの両方を提供します。ユーザーは AWS Glue Data Catalog を使用して、データを簡単に検出し、アクセスすることができます。データエンジニアと ETL (抽出、変換、読み込み) デベロッパーは、AWS Glue Studio で数回クリックすれば、ETL ワークフローを視覚的に作成、実行、モニターできます。データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを書くことなくデータを視覚的に強化、クリーンアップ、正規化できます。AWS Glue Elastic Views を使用すると、アプリケーションデベロッパーは、使い慣れた構造化照会言語 (SQL) を使用して、さまざまなデータストア間でデータを結合および複製できます。

AWS Glue の紹介 (日本語字幕) (1:47)

利点

迅速なデータ統合

組織全体のさまざまなグループが AWS Glue を使用して、抽出、クリーニング、正規化、結合、読み込み、スケーラブルな ETL ワークフローの実行などのデータ統合タスクに協力して取り組むことができます。 そうすると、データの分析を開始するのにかかる時間を数か月から数分に短縮できます。

大規模なデータ統合を自動化

AWS Glue は、データ統合に必要な労力の多くを自動化します。AWS Glue はデータソースをクロールし、データフォーマットを識別してデータを保存するためのスキーマと変換を提案します。データ変換とロードプロセスを実行するコードが自動的に生成されます。AWS Glue を使用して、何千もの ETL ジョブを簡単に実行および管理できます。あるいは、SQL を使用して、複数のデータストア間にデータを結合およびレプリケートできます。

サーバー管理が不要

AWS Glue はサーバーレス環境で稼働します。管理するインフラストラクチャはありません。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、構成、スケーリングします。実行中にジョブが使用するリソースに対してのみ料金をお支払いいただきます。

ユースケース


イベント駆動型 ETL (抽出、変換、読み込み) パイプラインの構築

AWS Glue は、新しいデータが到着したときに ETL ジョブを実行できます。例えば、AWS Lambda 関数を使用して、新しいデータが Amazon S3 で利用可能になるとすぐに ETL ジョブがトリガーされるように設定できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

イベント駆動型の ETL パイプライン図

統一カタログを作成して複数のデータストア間でデータを検出

データを移動させることなく、AWS の複数のデータセットで素早く検出および検索を行うには、AWS Glue データカタログを使用します。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

AWS Glue で ELT ジョブを作成して実行

コード書きなしで ETL ジョブを作成、実行、モニター

AWS Glue Studio を使用すると、AWS Glue ETL ジョブを視覚的に簡単に作成、実行、監視できます。ドラッグアンドドロップエディタを使用してデータを移動および変換する ETL ジョブを構成できます。また、AWS Glue は自動的にそのコードを生成します。次に、AWS Glue Studio のジョブ実行ダッシュボードを使用して ETL 実行を監視し、ジョブが意図したとおりに動作していることを確認できます。AWS Glue Studio についての詳細は、こちらをご覧ください。

ETL デベロッパー向けの視覚化 ETL ツール

セルフサービスビジュアルデータの準備を使ったデータ探索

AWS Glue DataBrew を使用すれば、データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora、Amazon RDS などのデータベースから直接データを探索して実験できます。AWS Glue DataBrew の 250 を超えるビルド済みトランスフォーメーションから選択して、異常のフィルタリング、フォーマットの標準化、無効な値の修正などのデータ準備タスクを自動化できます。データの準備が整ったら、すぐに分析と機械学習に使用できます。AWS Glue DataBrew についての詳細は、こちらをご覧ください。

視覚的なデータクリーニングとデータの正規化

マテリアライズドビューを構築してデータを結合およびレプリケート (プレビュー内)

AWS Glue Elastic Views により、使い慣れた SQL を使用してマテリアライズドビューを作成できます。それらのビューを使用して複数のソースデータストアのデータにアクセスし、結合できます。また、組み合わせたデータを最新のものに保ち、ターゲットデータストアからアクセス可能にします。AWS Glue Elastic Views のプレビューは現在、ソースとしてAmazon DynamoDB をサポートしています。また、Amazon Aurora および Amazon RDS にも対応しています。現在サポートされているターゲットは、Amazon Redshift、Amazon S3、Amazon Elasticsearch Service です。また、Amazon Aurora、Amazon RDS、Amazon DynamoDB もサポートされています。AWS Glue Elastic Views の詳細については、こちら をご覧ください。

視覚的なデータクリーニングとデータの正規化

最新情報

日付
  • 日付
1
AWS Glue の特徴
AWS Glue の特徴をチェックする

AWS Glue の主な特徴について学びましょう。

詳細はこちらから 
AWS アカウントにサインアップする
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
AWS コンソールで構築を開始する
AWS Glue で構築を開始する

ビジュアル ETL インターフェイスで、AWS Glue を使った構築を開始しましょう。

サインイン