AWS Glue

シンプルでスケーラブルなサーバーレスデータの準備

AWS Glue は、データエンジニア、抽出、変換、読み込み (ETL) デベロッパー、データアナリスト、データサイエンティストがデータを簡単に抽出、クリーンアップ、強化、正規化、読み込みできるようにするサーバーレスのデータ準備サービスです。AWS Glue は、データの分析を開始するのにかかる時間を数か月から数分に短縮します。

データの準備は重要で、やりがいのあるプロセスです。データを分析できるようにするには、まずさまざまなソースからデータを抽出してください。次に、それをクリーンアップし、必要な形式に変換して、データベース、データウェアハウス、およびデータレイクにロードしてさらに分析します。これらのタスクは、多くの場合、多様なツールを使用するさまざまなグループによって実行されます。

AWS Glue は、データの準備を容易にするために、視覚化インターフェイスとコードベースのインターフェイスの両方を提供します。データエンジニアと ETL デベロッパーは、AWS Glue Studio を使用して、数回クリックするだけで ETL ワークフローを作成、実行、監視できます。データアナリストとデータサイエンティストは、AWS Glue DataBrew を使用して、コードを記述せずにデータを視覚的にクリーンアップおよび正規化できます。

AWS Glue の紹介 (日本語字幕) (1:47)

利点

データをより速く準備する

AWS Glue は、分析と機械学習のためのデータ準備を簡素化するために、すべてのユーザーに統合ツールを提供します。組織全体のさまざまなグループが協力して、抽出、クリーニング、正規化、読み込み、スケーラブルな ETL ワークフローの実行などのデータを準備できます。このようにして、データの分析を開始するのにかかる時間を数か月から数分に短縮します。

大規模に自動化する

AWS Glue は、データ準備に必要な作業の多くを自動化します。AWS Glue はデータソースをクロールし、データフォーマットを識別してデータを保存するためのスキーマと変換を提案します。データ変換とロードプロセスを実行するコードが自動的に生成されます。AWS Glue を使用すれば、数千の ETL ジョブを簡単に実行および管理して、分析と機械学習のためにペタバイト単位のデータを効率的に準備できます。

サーバー管理が不要

AWS Glue は、サーバーレス環境で Apache Spark と Python を実行します。管理するインフラストラクチャはありません。AWS Glue は、データ準備ジョブの実行に必要なリソースをプロビジョニング、設定、スケーリングします。実行中にジョブが使用するリソースに対してのみ料金をお支払いいただきます。

ユースケース


複数のデータストアにまたがるデータの統合ビュー

データを移動させることなく、AWS の複数のデータセットで素早く検出および検索を行うには、AWS Glue データカタログを使用できます。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

AWS Glue で ELT ジョブを作成して実行する

イベント駆動型の ETL パイプライン

AWS Glue は、新しいデータが到着したときに ETL ジョブを実行できます。例えば、AWS Lambda 関数を使用して、新しいデータが Amazon S3 で利用可能になるとすぐに ETL ジョブがトリガーされるように設定できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

イベント駆動型の ETL パイプライン図

コーディングなしのビッグデータ ETL

AWS Glue Studio を使用すると、AWS Glue ETL ジョブを視覚的に簡単に作成、実行、監視できます。データを移動および変換する ETL ジョブを作成し、AWS Glue で実行できます。次に、AWS Glue Studio のジョブ実行ダッシュボードを使用して ETL 実行を監視し、ジョブが意図したとおりに動作していることを確認できます。AWS Glue Studio の詳細については、こちらをご覧ください。

ETL デベロッパー向けの視覚化 ETL ツール

セルフサービスにおけるビジュアルデータの準備

AWS Glue DataBrew を使用すれば、データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora、Amazon RDS などのデータベースから直接データを探索して実験できます。AWS Glue DataBrew の 250 を超えるビルド済みトランスフォーメーションから選択して、異常のフィルタリング、フォーマットの標準化、無効な値の修正などのデータ準備タスクを自動化できます。データの準備が整ったら、すぐに分析と機械学習に使用できます。AWS Glue DataBrew の詳細については、こちらをご覧ください。

視覚的なデータクリーニングとデータの正規化

最新情報

日付
  • 日付
1
AWS Glue の特徴
AWS Glue の特徴をチェックする

AWS Glue の主な特徴について学びましょう。

詳細はこちらから 
AWS アカウントにサインアップする
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
AWS コンソールで構築を開始する
AWS Glue で構築を開始する

ビジュアル ETL インターフェイスで、AWS Glue を使った構築を開始しましょう。

サインイン