AWS Glue
AWS クラウド
AWS Glue の使用を開始する

AWS Glue は抽出、変換、ロード (ETL) を行う完全マネージド型のサービスで、お客様の分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue データカタログに保存されます。カタログに保存されたデータは、すぐに検索、クエリ、ETL で使用できます。AWS Glue では、データ変換とデータのロードプロセスを実行するコードが生成されます。

AWS Glue で生成されるコードは、カスタマイズ性、再利用性、可搬性の高い Python コードです。ETL ジョブの作成が完了したら、AWS Glue のフルマネージド型 Apache Spark スケールアウト環境でジョブの実行をスケジュールできます。AWS Glue では、依存性の解決、ジョブのモニタリング、アラートを行う柔軟なスケジューラを利用できます。

AWS Glue はサーバーレスであるため、インフラストラクチャの購入、設定、管理は不要です。ジョブの実行に必要な環境が自動的にプロビジョニングされます。また、お客様が支払うのは、ETL ジョブの実行中に使用したコンピューティングリソースの費用のみです。分析用のデータは数分で準備できます。

AWS Glue
1:47
サーバーレスでクラウド向けに最適化された完全マネージド型 ETL サービス

すぐに ETL を開始できますか?

AWS Glue の使用を開始する


簡単

簡単

AWS Glue では、手間のかかる ETL ジョブの構築、管理、実行のほとんどが自動化されます。AWS Glue はデータソースを自動的にクロールし、データフォーマットを識別してスキーマと変換を提案します。AWS Glue では、データ変換とロードプロセスを実行するコードが自動的に生成されます。

統合

統合

AWS Glue は、AWS の幅広いサービスと統合されています。Amazon Aurora、Amazon RDS for MySQL、Amazon RDS for Oracle、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon Redshift、Amazon S3 に保存されたデータに加え、Amazon EC2 で実行されている Virtual Private Cloud (Amazon VPC) 内の MySQL、Oracle、Microsoft SQL Server、PostgreSQL などのデータベースが AWS Glue でネイティブでサポートされます。AWS Glue は、初期状態で Amazon Athena、Amazon EMR、Amazon Redshift Spectrum、および任意の Apache Hive Metastore 互換アプリケーションと統合されています。

サーバーレス

サーバーレス

AWS Glue はサーバーレスです。お客様がインフラストラクチャをプロビジョニングおよび管理する必要はありません。AWS Glue 側で、ETL ジョブの実行に必要なリソースのプロビジョニング、設定、スケーリングが処理され、フルマネージド型の Apache Spark スケールアウト環境で実行できるようになります。お客様が支払うのは、ジョブの実行中に使用したリソースの料金のみです。

開発者にとって使いやすい

開発者にとって使いやすい

AWS Glue では、開発者に馴染みのある Python や Spark を使用して、カスタマイズ性、再利用性、可搬性の高い ETL コードを生成できます。Glue ETL に読み取り、書き込み、変換のカスタム機能をインポートすることもできます。AWS Glue が生成するコードはオープンフレームワークに基づくため、囲い込みの心配はありません。どこでも使用できます。


ステップ 1: データカタログを構築する
ステップ 1: データカタログを構築する

画像をクリックして拡大

まず、AWS マネジメントコンソールを使用して、データソースを登録します。AWS Glue によってデータソースがクロールされ、JSON、CSV、Parquet といった多くの一般的なソースフォーマットやデータタイプに対して事前に構築された分類子を使用してデータカタログが構築されます。

ステップ 2: データ変換を生成および編集する
ステップ 2: データ変換を生成および編集する

画像をクリックして拡大

次に、データのソースとターゲットを選択します。AWS Glue によって生成された Python の ETL コードで、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへのロードを行います。このコードはコンソール、任意の IDE、テキストエディタで編集、デバッグ、テストできます。

ステップ 3: ジョブをスケジュールして実行する
ステップ 3: ジョブをスケジュールして実行する

画像をクリックして拡大

AWS Glue では、定期的な ETL ジョブのスケジューリング、複数のジョブの連結、AWS Lambda といった他のサービスからのオンデマンドによるジョブ呼び出しを簡単に実行できます。AWS Glue では、ジョブ間の依存関係が管理され、基盤となるリソースが自動的にスケールされ、失敗したジョブが自動的に再試行されます。

詳細については、AWS Glue の製品の詳細ページにアクセスするか、AWS の製品ドキュメントをご覧ください。


AWS Glue を使用すると、データセットをクリーニング、正規化、エンリッチして、分析のためにクリックストリームの準備やログデータの処理を実行できます。AWS Glue では、半構造化データに対するスキーマの生成、データを変換、平坦化、エンリッチするための ETL コードの作成、データウェアハウスからの定期的なロードを実行できます。

分析のためにデータを準備およびロードする

AWS Glue データカタログを使用すると、AWS の複数のデータセットに配置されたデータを、移動せずに簡単に検出および検索できます。カタログ化されたデータは、すぐに Amazon Athena、Amazon EMR、Amazon Redshift Spectrum を使用した検索やクエリで利用できるようになります。

データの統合ビューを構築する

データレイクは、構造化データおよび非構造化データの保存と分析を行う手段として人気が高まっています。Amazon S3 のデータレイクを使用している場合、AWS Glue によって、すべてのデータを瞬時に分析用に準備できます。データを移動する必要はありません。Glue のクローラによってデータレイクがスキャンされ、基盤となるデータと Glue データカタログとの同期が維持されます。その上で、Amazon Athena および Amazon Redshift Spectrum から、データレイクに対するクエリを直接送信できます。また、Amazon EMR で実行されるビッグデータ処理のアプリケーションで利用するために、Glue データカタログを外部の Apache Hive メタストアとして使用することもできます。

データの統合ビューを構築する

AWS Glue では、新しいデータセットの取得といったイベントに基づいて ETL ジョブを実行できます。例えば、AWS Lambda 関数を使用して、新しいデータが Amazon S3 で利用可能になるとすぐに ETL ジョブがトリガーされるように設定できます。また、ETL ジョブの処理の一環として、このような新しいデータセットを AWS Glue データカタログに登録することもできます。

新しいデータの追加に応じた ETL ジョブの自動実行

AWS Glue の使用を開始するのは簡単です。AWS マネジメントコンソールにサインインして、[分析] カテゴリの下にある [AWS Glue] をクリックしてください。

すぐに ETL を開始できますか?

AWS Glue の使用を開始する