統合されたデータカタログ

AWS Glue データカタログは永続的なメタデータストアで、保存される場所にかかわらずすべてのデータアセットに使用できます。データカタログにはテーブルの定義、ジョブの定義、および AWS Glue 環境の管理に役立つその他の制御情報が格納されます。統計情報の計算とパーティションの登録は自動的に実行され、データのクエリを効率的かつ費用対効果の高い方法で行うことができます。また、包括的なスキーマバージョン履歴が保持されるため、時間の経過とともにデータがどのように変化したかを把握できます。

スキーマの自動検出

AWS Glue では、クローラーがソースやターゲットのデータストアに接続され、分類子の優先順位付きリストによってデータのスキーマが判定された後、AWS Glue データカタログにメタデータが作成されます。メタデータはデータカタログのテーブルに保存され、ETL ジョブの作成プロセスで使用されます。クローラーはスケジュールによって実行することも、オンデマンドで実行することもできます。または、最新のメタデータが必要なイベント時にトリガーすることもできます。

コードの生成

AWS Glue では、データの抽出、変換、ロードのためのコードが自動的に生成されます。AWS Glue でデータのソースとターゲットを指定するだけで、データの変換、フラット化、エンリッチを行う ETL スクリプトが作成されます。このコードは、Scala または Python で生成され、Apache Spark 向けに記述されます。

データを消去して重複を排除する

AWS Glue は、重複排除のための FindMatches という機械学習の変換を提供して一致するレコードを検索することで、データを消去して分析用に準備することができます。例えば、あるレコードで「121 Main St.」に「Joe's Pizza」をリストされ、別のレコードで「121 Main」に「Joseph's Pizzeria」が示されるといった場合に、AWS Lake Formation の FindMatches を使用してレストランのデータベースで重複レコードを検索します。これを実行するために機械学習についての知識は必要ありません。FindMatches は、レコードのセットに「一致する」または「一致しない」のいずれかのラベルを付けるよう求めるだけです。その後、このシステムは、1 組のレコードを「一致」と見なす条件を学習し、データベース内の重複レコードまたは 2 つのデータベース間で一致するレコードの検索に使用できる ML 変換を構築します。

開発者のエンドポイント

ETL コードを対話的に開発する場合は、生成されるコードの編集、デバッグ、テストを行うために、AWS Glue によって開発のエンドポイントが用意されます。お好みの IDE やメモ帳を使用できます。カスタムのリーダー、ライター、変換を作成し、カスタムライブラリとして AWS Glue ETL ジョブにインポートできます。AWS の GitHub リポジトリでは、他の開発者のコードを使用することや、他の開発者とコードを共有することができます。

柔軟なジョブスケジューラ

AWS Glue のジョブは、スケジュールベース、オンデマンド、イベントベースで呼び出すことができます。複数のジョブを並列で開始することも、ジョブ間の依存関係を指定して複雑な ETL パイプラインを構築することもできます。AWS Glue では、ジョブ間の依存関係すべての処理、不良データのフィルタリング、失敗したジョブの再試行は自動的に行われます。ログや通知はすべて Amazon CloudWatch にプッシュされるため、中央のサービスからモニタリングして、アラートを受信できます。

Product-Page_Standard-Icons_01_Product-Features_SqInk
料金ページにアクセスする

AWS Glue の料金オプションをご確認ください。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで AWS Glue を使った構築を始めましょう。

サインイン 
50 以上の製品を無料でお試し
AWS 無料利用枠 ››
ご不明な点がおありですか?
日本担当チームへお問い合わせ ››