新米プログラマー、八起ななこ(やおき・ななこ)は、 会社の全データを可視化して欲しいと依頼を受ける。データフォーマットも全く異なるデータをどう扱ったらいいか悩んだななこは、AWS ソリューションアーキテクトの目黒はじめに相談する。そこではじめから勧められたのは、データレイクの構築だった。

vol9-7

データレイクとは、あらゆる種類のデータを保存できる一元化されたリポジトリ(保管場所)です。リレーショナルデータベースに蓄積されているような構造化データ、テキスト・画像・映像のような非構造化データを、そのままの形で保存できるため、事前にデータを構造化しておくことが不要で、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなのタイプの分析を実行するために活用できます。AWS は、データレイクを構築するための様々なサービスを提供しています。

320x320-what-is-a-data-lake

AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。実はデータレイクを構築するには、設定や管理に関わる複雑で時間のかかる手作業のタスクが数多く必要になりますが、AWS Lake Formation を利用すれば、データが配置される場所と適用するデータアクセスおよびセキュリティポリシーを定義するだけで、 AWS 上で簡単にデータレイクを作成することができます。
※現在プレビュー版でのご提供になります。

Product-Page-Diagram_AWS-Michigan_How-it-Works

Amazon S3 は、安全かつ非常にスケーラブルで耐久性に優れたオブジェクトストレージで、ミリ秒単位のレイテンシーでデータにアクセスできます。Amazon S3 は、ウェブサイトおよびモバイルアプリケーション、社内アプリケーション、IoT センサーまたはデバイスからのデータなど、生成された場所や種類に関係なくデータを保存できるように設計されています。他にはない可用性で、あらゆる量のデータを保存して取得するように構築されており、99.999999999% (イレブンナイン) の耐久性を実現するようにゼロから開発されました。Amazon S3 Select は、データの読み込みと取得に焦点を当て、応答時間を最大 400% 短縮します。Amazon S3 は、最も厳格な規制要件をも満たす、包括的なセキュリティ機能とコンプライアンス機能を提供します。

AWS Glue は抽出、変換、ロード ( ETL ) を行う完全マネージド型のサービスで、お客様の分析用データの準備とロードを簡単にします。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue データカタログに保存されます。カタログに保存されると、データはすぐに検索かつクエリ可能になり、ETL に使用できるようになります。

Amazon EMR では、ログの分析、ウェブインデックス作成、データ変換 ( ETL )、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスを含む、さまざまなビッグデータのユースケースが確実かつ安全に処理されます。EMR を使用すると、並べ替え、集計、結合などのデータ変換ワークロード ( ETL ) を大規模なデータセットですばやく、コスト効率よく実行できます。

Hadoop および Spark のフレームワークを使用するビッグデータ処理において、Amazon EMR が、大量のデータを簡単かつ迅速にし、コスト効率を高めるマネージドサービスを提供します。Amazon EMR は、Hadoop、Spark、HBase、および Presto を含む 19 の異なるオープンソースプロジェクトをサポートしており、データエンジニアリング、データサイエンス開発、およびコラボレーションのためのマネージド EMR ノートブックが搭載されています。各プロジェクトはバージョンリリースから 30 日以内に ERM で更新され、労することなくコミュニティからの最新かつ最も優れたプロジェクトを確実に使用できます。

データウェアハウジングの場合、Amazon Redshift を使用すると、ペタバイト規模の構造化データに対して複雑な分析クエリを実行できます。さらに、このサービスに含まれている Redshift Spectrum を使用すると、S3 に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接 SQL クエリを実行できます。このときにデータを移動する必要はありません。Amazon Redshift に必要なコストは、従来のソリューションと比較して 10 分の 1 です。1 時間あたりわずか 0.25 USD の小規模から開始して、1 テラバイトにつき年間 1,000 USD の料金であるペタバイト規模のデータ処理までスケールアウトできます。

インタラクティブ分析を行う場合、Amazon Athena を使用すると、標準的な SQL クエリを使用して S3 や Glacier で直接、簡単にデータを分析できます。Athena はサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。操作は簡単で、Amazon S3 にあるデータを指定し、スキーマを定義し、標準的な SQL を使用してクエリの実行を開始するだけです。多くの場合、数秒で結果が出てきます。

ダッシュボードと可視化については、クラウドを活用した高速なビジネス分析サービスである Amazon QuickSight を使用すると、簡単に最適な可視化を行って、ブラウザやモバイルデバイスからアクセスできる優れたダッシュボードを作成できます。

Amazon QuickSight をご紹介したマンガはこちらから読めます。

AWS のオンラインセミナーシリーズ「 AWS Black Belt Online Seminar 」の 「 データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料です。

オンラインセミナーの資料 ( SlideShare )

オンラインセミナーの資料 ( PDF )

オンラインセミナーの動画

AWS のオンラインセミナーシリーズ「 AWS Black Belt Online Seminar 」の 「 データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料です。

オンラインセミナーの資料 ( SlideShare )

オンラインセミナーの資料 ( PDF )

オンラインセミナーの動画

datalake slide
オンラインセミナー:データレイク入門:AWS で様々な規模のデータレイクを分析する効率的な方法

このマンガの感想や、AWS サービスについて、また、あなたのエンジニアあるあるなどを、ハッシュタグ #AWS開発日記 を使ってソーシャルメディアにぜひ投稿ください。AWS 公式から RT するかも(?)

AWS アカウント作成はこちら ≫

※本ページの掲載内容は投稿日時点の情報となります。