AWS Glue を選ぶ理由?
質の高い結果を得るためにデータを準備することは、分析または ML プロジェクトの最初のステップです。AWS Glue は、データの準備をより簡単、迅速、低コストにするサーバーレスデータ統合サービスです。70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。生成 AI 機能が組み込まれているため、ETL オーサリングと Spark のトラブルシューティングをインテリジェントに支援することで、Spark ジョブをモダナイズし、開発期間を短縮できます。
AWS Glue のご紹介 (01:54)

AWS Glue の利点

デベロッパーからビジネスユーザーまで、すべてのデータユーザーをサポート
1 つのサーバーレスサービスで完全なデータ統合機能を提供
ETL、ELT、バッチ、ストリーミングなどをロックインなしで柔軟にサポート
ペタバイト規模、従量課金、あらゆるデータサイズ

仕組み

AWS Glue は、サーバーレスなデータ統合サービスで、分析、機械学習 (ML)、アプリケーション開発用に、複数のソースからデータを検出、準備、移動、統合することをより容易にします。

  • データ統合エンジンオプション
  • AWS Glue でお好みのデータ統合エンジンを選択し、ユーザーとワークロードをサポートします。

    図は、AWS Glue の複数のデータ処理エンジンのオプションを示したものです。
  • イベント駆動型 ETL
  • AWS Glue は、新しいデータが到着すると、抽出、変換、ロード (ETL) ジョブを実行できます。例えば、AWS Glue を設定して、Amazon Simple Storage Service (S3) で新しいデータが利用可能になり次第、ETL ジョブの実行を開始できます。

    新しいデータが到着したときに AWS Glue が ETL ジョブを実行する方法を示す図。
  • AWS Glue データカタログ
  • データを移動させることなく、AWS の複数のデータセットを迅速に検出および検索を行うには、データカタログを使用します。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

    データを移行することなくデータセットを検出および検索する Data Catalog を示す図。
  • ノーコード ETL ジョブ
  • AWS Glue Studio を使用すると、AWS Glue ETL ジョブを視覚的に作成、実行、モニタリングするのがより簡単になります。ドラッグアンドドロップエディタを使用してデータを移動および変換する ETL ジョブを構築できます。また、AWS Glue は自動的にそのコードを生成します。

    ユーザーがドラッグアンドドロップエディタを使用してデータを移行および変換する ETL ジョブを作成する方法を示す図。
  • データ品質の管理とモニタリング
  • AWS Glue Data Quality は、データ品質ルールの作成、管理、モニタリングを自動化し、データレイクやパイプライン全体で高品質なデータを確保できるよう支援します。

    図は、AWS Glue Data Quality がデータレイクとデータパイプラインのデータ品質を自動的に測定、モニタリング、管理する様子を示しています。
  • データ準備
  • AWS Glue DataBrew を使用することで、データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora、Amazon Relational Database Service (RDS) などのデータベースから直接データを探索して実験できます。DataBrew の 250 を超える構築済みトランスフォーメーションから選択して、異常のフィルタリング、フォーマットの標準化、無効な値の修正などのデータ準備タスクを自動化できます。

    さらに、AWS Glue Studio にはデータ準備ツールが用意されており、コードを記述することなく、インタラクティブなポイントアンドクリックのビジュアルインターフェイスでデータを準備できます。

    DataBrew がユーザーのためにデータ準備タスクを自動化する方法を示す図。

ユースケース

データを効率的に検出する

AWS、オンプレミス、その他のクラウドのデータをすばやく識別し、クエリや変換にすぐに利用できるようにします。

ETL パイプラインの開発を簡素化する

自動プロビジョニングとワーカー管理によりインフラストラクチャ管理をなくし、すべてのデータ統合のニーズを 1 つのサービスに統合します。

データをインタラクティブに探索、実験、処理する

AWS Glue インタラクティブセッションを使用すると、データエンジニアは、任意の統合開発環境 (IDE) またはノートブックを使用して、データをインタラクティブに探索および準備できます。

さまざまな処理フレームワークとワークロードをサポートする

ETL や ELT などのさまざまなデータ処理フレームワークと、バッチ、マイクロバッチ、ストリーミングなどのさまざまなワークロードをより簡単にサポートします。

最新情報

  • 日付 (新しい順)
結果が見つかりません
1

AWS の詳細を見る