AWS Glue

あらゆる規模ですべてのデータを検出、準備、統合する

オブジェクト 100 万個の保存が

仕組み

AWS Glue は、サーバーレスなデータ統合サービスで、分析、機械学習 (ML)、アプリケーション開発用に、複数のソースからデータを検出、準備、移動、統合することをより容易にします。

  • データ統合エンジンオプション
  • AWS Glue でお好みのデータ統合エンジンを選択し、ユーザーとワークロードをサポートします。

    図は、AWS Glue の複数のデータ処理エンジンのオプションを示したものです。
  • イベント駆動型 ETL
  • AWS Glue は、新しいデータが到着すると、抽出、変換、ロード (ETL) ジョブを実行できます。例えば、AWS Glue を設定して、Amazon Simple Storage Service (S3) で新しいデータが利用可能になり次第、ETL ジョブの実行を開始できます。

    新しいデータが到着したときに AWS Glue が ETL ジョブを実行する方法を示す図。
  • AWS Glue データカタログ
  • データを移動させることなく、AWS の複数のデータセットを迅速に検出および検索を行うには、データカタログを使用します。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

    データを移行することなくデータセットを検出および検索する Data Catalog を示す図。
  • ノーコード ETL ジョブ
  • AWS Glue Studio を使用すると、AWS Glue ETL ジョブを視覚的に作成、実行、モニタリングするのがより簡単になります。ドラッグアンドドロップエディタを使用してデータを移動および変換する ETL ジョブを構築できます。また、AWS Glue は自動的にそのコードを生成します。

    ユーザーがドラッグアンドドロップエディタを使用してデータを移行および変換する ETL ジョブを作成する方法を示す図。
  • データ品質の管理とモニタリング
  • AWS Glue Data Quality は、データ品質ルールの作成、管理、モニタリングを自動化し、データレイクやパイプライン全体で高品質なデータを確保できるよう支援します。

    図は、AWS Glue Data Quality がデータレイクとデータパイプラインのデータ品質を自動的に測定、モニタリング、管理する様子を示しています。
  • データ準備
  • AWS Glue DataBrew を使用することで、データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora、Amazon Relational Database Service (RDS) などのデータベースから直接データを探索して実験できます。DataBrew の 250 を超える構築済みトランスフォーメーションから選択して、異常のフィルタリング、フォーマットの標準化、無効な値の修正などのデータ準備タスクを自動化できます。

    DataBrew がユーザーのデータ準備タスクを自動化する方法を示す図。
Introduction to AWS Glue (AWS Glue のご紹介) (01:54)
AWS Glue を選ぶ理由
質の高い結果を得るためにデータを準備することは、分析または ML プロジェクトの最初のステップです。AWS Glue は、データの準備をより簡単、迅速、低コストにするサーバーレスデータ統合サービスです。70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。

ユースケース

ETL パイプラインの開発を簡素化する

自動プロビジョニングとワーカー管理によりインフラストラクチャ管理をなくし、すべてのデータ統合のニーズを 1 つのサービスに統合します。

AWS Glue Auto Scaling の詳細 »

データを効率的に検出する

AWS、オンプレミス、その他のクラウドのデータをすばやく識別し、クエリや変換にすぐに利用できるようにします。

AWS Glue データカタログの詳細 »

データをインタラクティブに探索、実験、処理する

AWS Glue インタラクティブセッションを使用すると、データエンジニアは、任意の統合開発環境 (IDE) またはノートブックを使用して、データをインタラクティブに探索および準備できます。

AWS Glue インタラクティブセッションの詳細 »

さまざまな処理フレームワークとワークロードをサポートする

ETL や ELT などのさまざまなデータ処理フレームワークと、バッチ、マイクロバッチ、ストリーミングなどのさまざまなワークロードをより簡単にサポートします。

ストリーミング ETL ジョブの詳細 »

最初に行うべきこと

AWS Glue を無料でお試しください

サーバーレス環境を容易にして、複数のソースからのデータの検出、準備、移動、統合を行います。

AWS Glue で構築する

AWS Glue Studio ビジュアル ETL インターフェイスを使用してデータパイプラインを作成する方法を学習します。

データを統合する

手順に従って AWS Glue をセットアップし、使用を開始します。


AWS の詳細を見る