AWS Glue
AWS クラウド
プレビューにサインアップ

AWS Glue は、データストア間でデータ移動を簡単に行うための完全マネージド型 ETL サービスです。AWS Glue を使うと、困難で時間のかかるデータ検出、変換、マッピング、ジョブスケジューリングのタスクを簡単に、自動で行えるようになります。AWS Glue では、わかりやすいコンソールを使ってデータ移動プロセスをガイドするため、データソースの理解、分析用データの準備、データソースから宛先へ信頼性の高いロードを実行するのに役立ちます。

AWS Glue では、Amazon S3Amazon RDSAmazon Redshift と統合し、JDBC 準拠のデータストアに接続することができます。データソースを自動的にクロールし、データフォーマットを識別してからスキーマと変換を提案するため、データフローを手作業でコーディングする時間を費やす必要がなくなります。AWS Glue では、Python、Spark、Git、お気に入りの統合開発環境 (IDE) など、既に知っているツールやテクノロジーを使用し、必要に応じてこれらの変換を編集して、他の AWS Glue ユーザーと共有することも可能です。AWS Glue は ETL ジョブをスケジュールし、必要なすべてのインフラストラクチャのプロビジョニングとスケーリングを行うため、ETL ジョブをあらゆる規模ですばやく効率的に実行することが可能になります。管理するサーバーはなく、ETL ジョブによって消費されるリソースの分しか料金は発生しません。

Introducing AWS Glue (2:17)

video-thumbnail-aws-glue-launch-reinvent2016
Introducing AWS Glue

こちらからサインアップしていただくと、このサービスの利用可能状況に関する最新の情報をメールで受け取ることができます。

ステップ 1: データカタログを構築する

最初に、AWS マネジメントコンソールを使って AWS Glue でデータソースを登録します。AWS Glue では、JSON、CSV、Parquet などの多くの一般的なソースフォーマットやデータタイプに対して、あらかじめ作成された分類子を使用してデータソースをクロールし、データカタログを構築することができます。また、独自の分類子を追加することや、AWS Glue コミュニティから分類子を選択してクロールに使用することも可能です。


ステップ 1: データカタログを自動的に構築する
ステップ 1: データカタログを自動的に構築する

画像を拡大


ステップ 2: データ変換を生成、編集する

次に、データソースとターゲットを選択します。AWS Glue によって Python コードが生成されてソースからデータが抽出され、そのデータがターゲットのスキーマに合わせて変換されてターゲットにロードされます。自動生成されたコードでは、不適合データやハードウェア障害などの一般的なエラーケースを処理できます。このコードはお気に入りの IDE を使って編集し、独自のサンプルデータでテストすることが可能です。AWS Glue ユーザーと共有しているコードを参照し、活用することもできます。


ステップ 2: データ変換を生成する
ステップ 2: データ変換を生成する

画像を拡大


ステップ 3: ジョブをスケジュールして実行する

最後に、AWS Glue の柔軟なスケジューラを使って、フローを定期的に、トリガーに応じて、または AWS Lambda イベントに対応して実行できます。AWS Glue では ETL ジョブが Apache Spark ノードに自動的に配布されるため、データ量が増加しても ETL の実行時間を一定に保つことが可能です。AWS Glue を使うと、ジョブの実行を適切な順序で調整し、失敗したジョブを自動的に再試行できます。また、時間通りにジョブを完了させてコストを最小限に抑えるために、必要に応じてインフラストラクチャを伸縮自在にスケーリングすることも可能です。


ステップ 3: ジョブをスケジュールして実行する
ステップ 3: ジョブをスケジュールして実行する

画像を拡大


これで AWS Glue の使用を開始できました。

そう、これだけです。ETL ジョブが実際に稼働し始めると、AWS Glue を使って、スキーマ定義やデータフォーマットなどのメタデータへの変更を追跡できるため、ETL ジョブを常に最新の状態に保つことができます。

reinvent-hkt-banner-01

AWS re:Invent は世界中の AWS コミュニティの中でも最大のイベントです。このカンファレンスでは、AWS のサービスの深い知識を身に付けたり、ベストプラクティスを学んだりすることができます。AWS Glue は re:Invent 2016 で発表されました。以下のセッションをご覧になり、AWS Glue やその他の関連する分析について詳細を確認するか、ビッグデータに関するブレークアウトセッションの再生リスト全体をご確認ください。

AWS Glue はデータソースを理解しやすくする、完全マネージド型の ETL サービスです。このサービスにより、分析用のデータを作成し、データをデータストアに安心してロードできます。このセッションでは、AWS Glue を紹介し、そのコンポーネントの概要を説明するほか、このサービスによって ETL プロセスを簡素化および自動化する方法についてご説明します。また、このサービスを試用できる時期やプレビューにサインアップする方法についても説明します。

ここから視聴 »

 

ビッグデータを迅速かつ効率的に分析するには、大規模なデータセットを処理しスケールできるように最適化されたデータウェアハウスが必要です。Amazon Redshift は、高速でペタバイト規模のデータウェアハウスです。お客様は、シンプルかつ費用対効果の高い方法で、従来のデータウェアハウスコストのほんの一部ですべてのデータを分析できます。このセッションでは、ビッグデータ分析を可能にする Amazon Redshift のデータウェアハウスについて、詳しく見ていきます。Amazon Redshift の列指向技術と並列処理機能を活用し、高いスループットと高速のクエリパフォーマンスを実現するためのベストプラクティスを取り上げます。また、最適なスキーマの設計、データの効率的なロード、ワークロード管理の利用を行う方法についても説明します。

ここから視聴 »

 

世界で生成されているビッグデータについては、量、速度、多様性が増すばかりです。消費者や企業は、従来のバッチ処理に加え、変化の激しいデータに対する最新の分析を求めており、場合によってはそのスパンがさらに短くなっています。AWS では、ビッグデータの問題を解決するためのテクノロジーを数多く提供しています。しかし、どのサービスを、どのような理由から、いつどのように利用すればよいのでしょうか?このセッションでは、ビッグデータ処理を、さまざまな段階 (取り込み、保存、処理、視覚化) からなるデータバスとして簡素化します。次に、データ構造、クエリのレイテンシー、コスト、リクエスト率、項目のサイズ、データ量、耐久性などの基準に基づいて、各段階で適切なテクノロジーを選択する方法について説明します。最後に、こうしたテクノロジーを組み合わせて適切なコストでビッグデータの問題を解決するための、リファレンスアーキテクチャ、設計パターン、ベストプラクティスを提示します。

ここから視聴 »

 

AWS Glue プレビュープログラムには こちらからサインアップしてください。いったん承認されると、サービスを無料で試用できます。

プレビューにサインアップ