AWS Glue を選ぶ理由?
質の高い結果を得るためにデータを準備することは、分析または ML プロジェクトの最初のステップです。AWS Glue は、データの準備をより簡単、迅速、低コストにするサーバーレスデータ統合サービスです。70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。
AWS Glue のご紹介 (01:54)

仕組み

AWS Glue は、サーバーレスなデータ統合サービスで、分析、機械学習 (ML)、アプリケーション開発用に、複数のソースからデータを検出、準備、移動、統合することをより容易にします。

  • データ統合エンジンオプション
  • AWS Glue でお好みのデータ統合エンジンを選択し、ユーザーとワークロードをサポートします。

    図は、AWS Glue の複数のデータ処理エンジンのオプションを示したものです。
  • イベント駆動型 ETL
  • AWS Glue は、新しいデータが到着すると、抽出、変換、ロード (ETL) ジョブを実行できます。例えば、AWS Glue を設定して、Amazon Simple Storage Service (S3) で新しいデータが利用可能になり次第、ETL ジョブの実行を開始できます。

    新しいデータが到着したときに AWS Glue が ETL ジョブを実行する方法を示す図。
  • AWS Glue データカタログ
  • データを移動させることなく、AWS の複数のデータセットを迅速に検出および検索を行うには、データカタログを使用します。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

    データを移行することなくデータセットを検出および検索する Data Catalog を示す図。
  • ノーコード ETL ジョブ
  • AWS Glue Studio を使用すると、AWS Glue ETL ジョブを視覚的に作成、実行、モニタリングするのがより簡単になります。ドラッグアンドドロップエディタを使用してデータを移動および変換する ETL ジョブを構築できます。また、AWS Glue は自動的にそのコードを生成します。

    ユーザーがドラッグアンドドロップエディタを使用してデータを移行および変換する ETL ジョブを作成する方法を示す図。
  • データ品質の管理とモニタリング
  • AWS Glue Data Quality は、データ品質ルールの作成、管理、モニタリングを自動化し、データレイクやパイプライン全体で高品質なデータを確保できるよう支援します。

    図は、AWS Glue Data Quality がデータレイクとデータパイプラインのデータ品質を自動的に測定、モニタリング、管理する様子を示しています。
  • データ準備
  • AWS Glue DataBrew を使用することで、データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora、Amazon Relational Database Service (RDS) などのデータベースから直接データを探索して実験できます。DataBrew の 250 を超える構築済みトランスフォーメーションから選択して、異常のフィルタリング、フォーマットの標準化、無効な値の修正などのデータ準備タスクを自動化できます。

    DataBrew がユーザーのデータ準備タスクを自動化する方法を示す図。

最新情報

  • 日付 (新しい順)
結果が見つかりません
1

AWS の詳細を見る