データ検出

AWS データセット全体での検出と検索

AWS Glue データカタログは永続的なメタデータストアで、保存される場所にかかわらず、すべてのデータアセットに使用できます。データカタログにはテーブルの定義、ジョブの定義、スキーマ、および AWS Glue 環境の管理に役立つその他の制御情報が格納されます。統計情報の計算とパーティションの登録は自動的に実行され、データのクエリを効率的かつ費用対効果の高い方法で行うことができます。また、包括的なスキーマバージョン履歴が保持されるため、時間の経過とともにデータがどのように変化したかを把握できます。

スキーマの自動検出

AWS Glue では、クローラーがソースやターゲットのデータストアに接続され、分類子の優先順位付きリストによってデータのスキーマが判定された後、AWS Glue データカタログにメタデータが作成されます。メタデータはデータカタログのテーブルに保存され、ETL ジョブの作成プロセスで使用されます。クローラーはスケジュールによって実行することも、オンデマンドで実行することもできます。または、最新のメタデータが必要なイベント時にトリガーすることもできます。

データストリームのスキーマを管理および強化

AWS Glue のサーバーレス機能である AWS Glue スキーマレジストリを使用すると、登録済みの Apache Avro スキーマを使用しながら、ストリーミングデータの発展過程を検証および制御できます。追加料金はかかりません。スキーマレジストリは、Apache ライセンスのシリアライザーとデシリアライザーを通じて、Apache Kafka、Amazon Managed Streaming for Apache Kafka (MSK)、Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache Flink、および AWS Lambda 用に開発された Java アプリケーションと統合されます。データストリーミングアプリケーションがスキーマレジストリと統合している場合、スキーマの進化を管理する互換性チェックを利用して、データ品質を向上し、予期しない変更から保護することができます。さらに、レジストリ内に保存されているスキーマを使用して、 AWS Glue テーブルおよびパーティションを作成または更新できます。

データ変換

ドラッグアンドドロップインターフェースで可視的にデータを変換

AWS Glue Studio を使えば、Apache Spark の専門家にならなくても、高度にスケーラブルな ETL ジョブを分散処理向けにオーサリングできるようになります。ドラッグアンドドロップ型のジョブエディタで任意の ETL プロセスを定義すれば、AWS Glue がコードを自動的に生成してデータを抽出、変換、ロードします。このコードは、Scala または Python で生成され、Apache Spark 向けに記述されます。

シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築

AWS Glue のジョブは、スケジュールベース、オンデマンド、イベントベースで呼び出すことができます。複数のジョブを並列で開始することも、ジョブ間の依存関係を指定して複雑な ETL パイプラインを構築することもできます。AWS Glue では、ジョブ間の依存関係すべての処理、不良データのフィルタリング、失敗したジョブの再試行は自動的に行われます。ログや通知はすべて Amazon CloudWatch にプッシュされるため、中央のサービスからモニタリングして、アラートを受信できます。

送信中のストリーミングデータをクリーニングおよび変換

AWS Glue のサーバーレスストリーミング ETL ジョブは、Amazon Kinesis や Amazon MSK などのストリーミングソースのデータを継続的に使用し、これを送信中にクリーニングおよび変換して、分析向けにターゲットのデータストアで数秒以内に使用できるようにします。この機能を使用して、IoT イベントストリーム、クリックストリーム、ネットワークログなどのイベントデータを処理します。AWS Glue ストリーミング ETL ジョブは、データを強化および集約し、バッチソースとストリーミングソースを結合し、さまざまな種類の複雑な分析および機械学習オペレーションを実行できます。

データレプリケーション

SQL を使用した複数のデータストアにまたがるデータの結合とレプリケーション

AWS Glue Elastic Views により、AWS データストアの複数タイプに保存されているデータ全体のビューを作成することができます。また、選択したターゲットデータストアでビューをマテリアライズできます。AWS Glue Elastic Views を使用して PartiQL のクエリを書くことによって、マテリアライズされたビューを作成できます。PartiQL は、データが表形式であろうと、フレキシブルなドキュメントのようなストラクチャであろうと関係なく、データをクエリまたは操作するために使用する、オープンソースの SQL 互換性クエリ言語です。AWS マネージメントコンソールのクエリエディタを使用して、PartiQL クエリをインタラクティブに書くことができます。あるいは、API または CLI を通じてクエリを発行できます。

AWS Glue Elastic Views はソース (Amazon Aurora および Amazon RDS に対応) として Amazon DynamoDB をサポートしています。また、ターゲットとして (Amazon Aurora、 Amazon RDS、Amazon DynamoDB に対応) Amazon Redshift、Amazon Elasticsearch Service、およびAmazon S3 をサポートしています。ユーザーはアプリケーションの使用のために、マテリアライズされたビューを他のユーザーと共有することで開発時間をスピードアップできます。AWS Glue Elastic Views はソースデータストアのデータへの変更をコンスタントにモニターし、自動的にターゲットデータストアに更新を加えます。詳細については、AWS Glue Elastic Views をご覧ください。

データ準備

組み込み機械学習でデータを複製およびクレンジング

AWS Glue があれば、機械学習の専門家にならなくても、データを分析用にクリーニングし準備することができます。FindMatches 機能は、重複除去を行い、相互の対応が不完全なレコードを検出します。例えば、あるレコードで「121 Main St.」に「Joe's Pizza」をリストされ、別のレコードで「121 Main」に「Joseph's Pizzeria」が示されるといった場合に、FindMatches を使用してレストランのデータベースで重複レコードを検索します。FindMatches は、レコードのセットに「一致する」または「一致しない」のいずれかのラベルを付けるよう求めるだけです。 その後、このシステムは、1 組のレコードを「一致」と見なす条件を学習し、データベース内の重複レコードまたは 2 つのデータベース間で一致するレコードの検索に使用できる ETL ジョブを構築します。

デベロッパーのエンドポイントで ETL コードを編集、デバッグ、テスト

ETL コードを対話的に開発する場合は、生成されるコードの編集、デバッグ、テストを行うために、AWS Glue によって開発のエンドポイントが用意されます。お好みの IDE やメモ帳を使用できます。カスタムのリーダー、ライター、変換を作成し、カスタムライブラリとして AWS Glue ETL ジョブにインポートできます。AWS の GitHub リポジトリでは、他のデベロッパーのコードを使用することや、他のデベロッパーとコードを共有することが可能です。

可視インターフェースを使用してコードなしでデータを正規化

AWS Glue DataBrew は、データアナリストやデータサイエンティストなどのユーザーがコードを記述せずにデータをクリーンアップおよび正規化するためのインタラクティブなポイントアンドクリックのビジュアルインターフェイスを提供します。データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、Amazon Aurora、Amazon RDS などのデータベースから直接データを簡単に視覚化、クリーンアップ、正規化できます。250 以上の組み込み変換から選択して、データを結合、ピボット、転置し、保存された変換を新しい受信データに直接適用することでデータ準備タスクを自動化できます。

AWS Glue の料金
料金表のページを見る

AWS Glue の料金オプションをご確認ください。

詳細 
AWS アカウントにサインアップする
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する
コンソールで構築を開始する

AWS マネジメントコンソールで、AWS Glue を使った構築を開始しましょう。

サインイン