発見

AWS データセット全体での検出と検索

AWS Glue データカタログは永続的なメタデータストアで、保存される場所にかかわらず、すべてのデータアセットに使用できます。データカタログにはテーブルの定義、ジョブの定義、スキーマ、および AWS Glue 環境の管理に役立つその他の制御情報が格納されます。統計情報の計算とパーティションの登録は自動的に実行され、データのクエリを効率的かつ費用対効果の高い方法で行うことができます。また、包括的なスキーマバージョン履歴が保持されるため、時間の経過とともにデータがどのように変化したかを把握できます。

スキーマの自動検出

AWS Glue では、クローラーがソースやターゲットのデータストアに接続され、分類子の優先順位付きリストによってデータのスキーマが判定された後、AWS Glue データカタログにメタデータが作成されます。メタデータはデータカタログのテーブルに保存され、ETL ジョブの作成プロセスで使用されます。クローラーはスケジュールによって実行することも、オンデマンドで実行することもできます。または、最新のメタデータが必要なイベント時にトリガーすることもできます。

データストリームのスキーマを管理および強化

AWS Glue のサーバーレス機能である AWS Glue スキーマレジストリを使用すると、登録済みの Apache Avro スキーマを使用しながら、ストリーミングデータの発展過程を検証および制御できます。追加料金はかかりません。スキーマレジストリは、Apache ライセンスのシリアライザーとデシリアライザーを通じて、Apache Kafka、Amazon Managed Streaming for Apache Kafka (MSK)、Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache Flink、および AWS Lambda 用に開発された Java アプリケーションと統合されます。データストリーミングアプリケーションがスキーマレジストリと統合している場合、スキーマの進化を管理する互換性チェックを利用して、データ品質を向上し、予期しない変更から保護することができます。さらに、レジストリ内に保存されているスキーマを使用して、 AWS Glue テーブルおよびパーティションを作成または更新できます。

ワークロードに応じて自動的にスケーリング

AWS Glue のサーバーレス機能である、Autoscaling in AWS Glue は、ワークロードに応じて動的にリソースをスケールアップおよびダウンします。Autoscaling を使用すると、ジョブは必要なときだけワーカーを割り当てられます。ジョブが進行し、高度な変換が行われると、AWS Glue はワークロードをどれだけ分割できるかに応じてリソースを追加、削除します。リソースを過剰にプロビジョニングしたり、ワーカー数の最適化に時間を費やしたり、アイドル状態のリソースに料金を支払ったりすることについて心配する必要がなくなります。

トランスフォーメーション

ドラッグアンドドロップインターフェースで可視的にデータを変換

AWS Glue Studio を使えば、Apache Spark の専門家にならなくても、高度にスケーラブルな ETL ジョブを分散処理向けにオーサリングできるようになります。ドラッグアンドドロップ型のジョブエディタで任意の ETL プロセスを定義すれば、AWS Glue がコードを自動的に生成してデータを抽出、変換、ロードします。このコードは、Scala または Python で生成され、Apache Spark 向けに記述されます。

シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築

AWS Glue のジョブは、スケジュールベース、オンデマンド、イベントベースで呼び出すことができます。複数のジョブを並列で開始することも、ジョブ間の依存関係を指定して複雑な ETL パイプラインを構築することもできます。AWS Glue では、ジョブ間の依存関係すべての処理、不良データのフィルタリング、失敗したジョブの再試行は自動的に行われます。ログや通知はすべて Amazon CloudWatch にプッシュされるため、中央のサービスからモニタリングして、アラートを受信できます。

送信中のストリーミングデータをクリーニングおよび変換

AWS Glue のサーバーレスストリーミング ETL ジョブは、Amazon Kinesis や Amazon MSK などのストリーミングソースのデータを継続的に使用し、これを送信中にクリーニングおよび変換して、分析向けにターゲットのデータストアで数秒以内に使用できるようにします。この機能を使用して、IoT イベントストリーム、クリックストリーム、ネットワークログなどのイベントデータを処理します。AWS Glue ストリーミング ETL ジョブは、データを強化および集約し、バッチソースとストリーミングソースを結合し、さまざまな種類の複雑な分析および機械学習オペレーションを実行できます。

レプリケーション

SQL を使用した複数のデータストアにまたがるデータの結合とレプリケーション

AWS Glue Elastic Views により、AWS データストアの複数タイプに保存されているデータ全体のビューを作成することができます。また、選択したターゲットデータストアでビューをマテリアライズできます。AWS Glue Elastic Views を使用して PartiQL のクエリを書くことによって、マテリアライズされたビューを作成できます。PartiQL は、データが表形式であろうと、フレキシブルなドキュメントのようなストラクチャであろうと関係なく、データをクエリまたは操作するために使用する、オープンソースの SQL 互換性クエリ言語です。AWS マネジメントコンソールのクエリエディタを使用して、PartiQL クエリをインタラクティブに書くことができます。あるいは、API または CLI を通じてクエリを発行できます。

AWS Glue Elastic Views はソース (Amazon Aurora および Amazon RDS に対応) として Amazon DynamoDB をサポートしています。また、ターゲットとして (Amazon Aurora、 Amazon RDS、Amazon DynamoDB に対応) Amazon Redshift、Amazon OpenSearch Service、およびAmazon S3 をサポートしています。ユーザーはアプリケーションの使用のために、マテリアライズされたビューを他のユーザーと共有することで開発時間をスピードアップできます。AWS Glue Elastic Views はソースデータストアのデータへの変更をコンスタントにモニターし、自動的にターゲットデータストアに更新を加えます。詳細については、AWS Glue Elastic Views をご覧ください。

準備

組み込み機械学習でデータを複製およびクレンジング

AWS Glue があれば、機械学習の専門家にならなくても、データを分析用にクリーニングし準備することができます。FindMatches 機能は、重複除去を行い、相互の対応が不完全なレコードを検出します。例えば、あるレコードで「121 Main St.」に「Joe's Pizza」をリストされ、別のレコードで「121 Main」に「Joseph's Pizzeria」が示されるといった場合に、FindMatches を使用してレストランのデータベースで重複レコードを検索します。FindMatches は、レコードのセットに「一致する」または「一致しない」のいずれかのラベルを付けるよう求めるだけです。 その後、このシステムは、1 組のレコードを「一致」と見なす条件を学習し、データベース内の重複レコードまたは 2 つのデータベース間で一致するレコードの検索に使用できる ETL ジョブを構築します。

デベロッパーのエンドポイントで ETL コードを編集、デバッグ、テスト

ETL コードを対話的に開発する場合は、生成されるコードの編集、デバッグ、テストを行うために、AWS Glue によって開発のエンドポイントが用意されます。お好みの IDE やメモ帳を使用できます。カスタムのリーダー、ライター、変換を作成し、カスタムライブラリとして AWS Glue ETL ジョブにインポートできます。AWS の GitHub リポジトリでは、他のデベロッパーのコードを使用することや、他のデベロッパーとコードを共有することが可能です。

可視インターフェースを使用してコードなしでデータを正規化

AWS Glue DataBrew は、データアナリストやデータサイエンティストなどのユーザーがコードを記述せずにデータをクリーンアップおよび正規化するためのインタラクティブなポイントアンドクリックのビジュアルインターフェイスを提供します。データレイク、データウェアハウス、および Amazon S3、Amazon Redshift、Amazon Aurora、Amazon RDS などのデータベースから直接データを簡単に視覚化、クリーンアップ、正規化できます。250 以上の組み込み変換から選択して、データを結合、ピボット、転置し、保存された変換を新しい受信データに直接適用することでデータ準備タスクを自動化できます。

データ統合ジョブの開発を簡素化

ジョブ開発のサーバーレス機能である AWS Glue Interactive Sessions は、データ統合ジョブの開発を簡素化します。AWS Glue Interactive Sessions を使用すると、データエンジニアはデータをインタラクティブに探索して準備できます。エンジニアは、好みの IDE やノートブックを使って、データの探索、実験、処理をインタラクティブに行うことができます。

組み込みの Job Notebooks

AWS Glue Studio Job Notebooksは、AWS Glue Studio に最小限のセットアップでサーバーレスノートブックを提供するため、デベロッパーはすぐに始めることができます。Glue Studio Job Notebooks は、AWS Glue Interactive Sessions 用の組み込みインターフェイスを提供し、ユーザーがノートブックコードを AWS Glue ジョブとして保存およびスケジュールできるようにします。

機密データの定義、検出、修正

AWS Glue Sensitive Data Detection は、データパイプラインやデータレイクに含まれる機密データを定義、特定、処理することができます。特定されると、個人を特定できる情報 (PII) データおよびその他の機密とみなされるデータについて、冗長化、置換、または報告することによって、機密データを修復することができます。AWS Glue Sensitive Data Detection は、名前、SSN、住所、電子メール、運転免許証などの PII を含む機密データの識別とマスキングを簡素化します。

AWS Glue の料金
料金表のページを見る

AWS Glue の料金オプションをご確認ください。

詳細 
AWS アカウントにサインアップする
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する
コンソールで構築を開始する

AWS マネジメントコンソールで、AWS Glue を使った構築を開始しましょう。

サインイン