AWS Glue はフルマネージド型のデータ抽出、変換、ロード (ETL) サービスです。このサービスを使用すると、データに対してカタログ作成、クリーニング、エンリッチ、信頼性の高い方法でのデータストアへの移動を実行できます。AWS Glue を使うと、ETL ジョブの作成にかかるコスト、手間、時間を大幅に削減できます。AWS Glue はサーバーレスなので、インフラストラクチャをセットアップして管理する必要がありません。ジョブの実行中に使用するリソースに対してのみ支払いが発生します。

ETL を開始する準備ができていますか?

AWS Glue の使用を開始する
100x100_benefit_ingergration

AWS Glue データカタログは永続的なメタデータストアで、保存される場所にかかわらずすべてのデータアセットに使用できます。データカタログにはテーブルの定義、ジョブの定義、および AWS Glue 環境の管理に役立つその他の制御情報が格納されます。統計情報の計算とパーティションの登録は自動的に実行され、データのクエリを効率的かつ費用対効果の高い方法で行うことができます。また、包括的なスキーマバージョン履歴が保持されるため、時間の経過とともにデータがどのように変化したかを把握できます。

100x100_benefit_automated

AWS Glue では、クローラーがソースやターゲットのデータストアに接続され、分類子の優先順位付きリストによってデータのスキーマが判定された後、AWS Glue データカタログにメタデータが作成されます。メタデータはデータカタログのテーブルに保存され、ETL ジョブの作成プロセスで使用されます。クローラーはスケジュールによって実行することも、オンデマンドで実行することもできます。または、最新のメタデータが必要なイベント時にトリガーすることもできます。

100x100_benefit_code

AWS Glue では、データの抽出、変換、ロードのためのコードが自動的に生成されます。Glue でデータのソースとターゲットを指定するだけで、データの変換、フラット化、エンリッチを行う ETL スクリプトが作成されます。このコードは、Apache Spark 2.1 環境向けに Python で生成されます。

100x100_benefit_tools

ETL コードを対話的に開発する場合は、生成されるコードの編集、デバッグ、テストを行うために、Glue によって開発のエンドポイントが用意されます。お好みの IDE やメモ帳を使用できます。カスタムのリーダー、ライター、変換を作成し、カスタムライブラリとして ETL ジョブにインポートできます。AWS の GitHub リポジトリでは、他の開発者のコードを使用することや、他の開発者とコードを共有することができます。

100x100_benefit_monitoring-logging

AWS Glue のジョブは、スケジュールベース、オンデマンド、イベントベースで呼び出すことができます。複数のジョブを並列で開始することも、ジョブ間の依存関係を指定して複雑な ETL パイプラインを構築することもできます。ジョブ間の依存関係すべての処理、不良データのフィルタリング、失敗したジョブの再試行は自動的に行われます。ログや通知はすべて Amazon CloudWatch にプッシュされるため、中心的なサービスからモニタリングして、アラートを受信できます。

AWS Glue の使用を開始するのは簡単です。AWS マネジメントコンソールにサインインして、[分析] カテゴリの下にある [AWS Glue] をクリックしてください。

すぐに ETL を開始できますか?

AWS Glue の使用を開始する