統合されたデータカタログ

AWS Glue データカタログは永続的なメタデータストアで、保存される場所にかかわらずすべてのデータアセットに使用できます。データカタログにはテーブルの定義、ジョブの定義、および AWS Glue 環境の管理に役立つその他の制御情報が格納されます。統計情報の計算とパーティションの登録は自動的に実行され、データのクエリを効率的かつ費用対効果の高い方法で行うことができます。また、包括的なスキーマバージョン履歴が保持されるため、時間の経過とともにデータがどのように変化したかを把握できます。

スキーマの自動検出

AWS Glue では、クローラーがソースやターゲットのデータストアに接続され、分類子の優先順位付きリストによってデータのスキーマが判定された後、AWS Glue データカタログにメタデータが作成されます。メタデータはデータカタログのテーブルに保存され、ETL ジョブの作成プロセスで使用されます。クローラーはスケジュールによって実行することも、オンデマンドで実行することもできます。または、最新のメタデータが必要なイベント時にトリガーすることもできます。

コードの生成

AWS Glue では、データの抽出、変換、ロードのためのコードが自動的に生成されます。AWS Glue でデータのソースとターゲットを指定するだけで、データの変換、フラット化、エンリッチを行う ETL スクリプトが作成されます。このコードは、Scala または Python で生成され、Apache Spark 向けに記述されます。

開発者のエンドポイント

ETL コードを対話的に開発する場合は、生成されるコードの編集、デバッグ、テストを行うために、AWS Glue によって開発のエンドポイントが用意されます。お好みの IDE やメモ帳を使用できます。カスタムのリーダー、ライター、変換を作成し、カスタムライブラリとして AWS Glue ETL ジョブにインポートできます。AWS の GitHub リポジトリでは、他の開発者のコードを使用することや、他の開発者とコードを共有することができます。

柔軟なジョブスケジューラ

AWS Glue のジョブは、スケジュールベース、オンデマンド、イベントベースで呼び出すことができます。複数のジョブを並列で開始することも、ジョブ間の依存関係を指定して複雑な ETL パイプラインを構築することもできます。AWS Glue では、ジョブ間の依存関係すべての処理、不良データのフィルタリング、失敗したジョブの再試行は自動的に行われます。ログや通知はすべて Amazon CloudWatch にプッシュされるため、中央のサービスからモニタリングして、アラートを受信できます。

AWS Glue の料金の詳細

料金ページを見る
構築の準備はできましたか?
AWS Glue の使用を開始する
ご不明な点がおありですか?
お問い合わせ