データレイクとは

規模にかかわらず、すべてのデータを一元化された 1 つのリポジトリに保存

データレイクとは

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。

データレイクダイアグラム

データレイクが必要である理由

データからビジネス価値を生み出すことができる企業は、同業他社よりも優れた業績を上げることができます。Aberdeen 社の調査によると、データレイクを実装した企業は、同業他社と比べて本業の収益成長が 9% 上回っています。このようなトップ企業は、ログファイルのほか、クリックストリーム、ソーシャルメディア、インターネットに接続したデバイスからのデータなど、データレイクに保存されている新しい情報源に対して、機械学習などの新しいタイプの分析を実行していました。これにより、顧客の獲得と維持、生産性の飛躍的向上、デバイスの事前の保守管理、情報に基づいた意思決定が可能になり、ビジネスの成長を促進する機会を特定して行動できました。

データレイクとデータウェアハウスの比較 – 2 つの異なるアプローチ

要件にもよりますが、一般的な企業は、さまざまなニーズやユースケースに対応する際に、データウェアハウスとデータレイクの両方が必要になります。

データウェアハウスは、トランザクションシステムと基幹業務アプリケーションから取得したリレーショナルデータを分析するために最適化されたデータベースです。データ構造とスキーマの事前定義は、SQL クエリが高速になるように最適化されます。業務レポート作成や分析などには、通常、SQL クエリの結果が使用されるためです。データにはクリーニング、エンリッチメント、変換が実施され、信頼できる "単一の情報源" となるようにします。

一方、データレイクでは、基幹業務アプリケーションからのリレーショナルデータに加えて、モバイルアプリケーション、IoT デバイス、ソーシャルメディアからの非リレーショナルデータも保存されます。データの構造やスキーマは、データをキャプチャした時点では定義されません。つまり、データの保存時には、慎重に設計する必要がなく、この先答えが必要になりそうな質問を把握しておく必要もありません。SQL クエリ、ビッグデータ分析、全文検索、リアルタイム分析、機械学習など、さまざまなタイプのデータ分析を使用し、インサイトを発見できます。

データウェアハウスを使っている企業は、データレイクの利点を知るにつれて、データレイクを包含するようにデータウェアハウスを進化させており、多様なクエリ機能、データサイエンスのユースケース、新しい情報モデルを発見するための高度な機能を実現しています。Gartner 社は、この進化を "Data Management Solution for Analytics (DMSA)" と呼んでいます。

特徴 データウェアハウス データレイク
データ トランザクションシステム、業務データベース、基幹業務アプリケーションからのリレーショナルデータ IoT デバイス、ウェブサイト、モバイルアプリケーション、ソーシャルメディア、企業アプリケーションからの非リレーショナルデータとリレーショナルデータ
スキーマ DW の実装前に設計 (スキーマオンライト) 分析時に書き込み (スキーマオンリード)
価格/パフォーマンス 高コストのストレージを使用、クエリ結果の取得は最速 低コストのストレージを使用してクエリ結果をより速く取得
データ品質
高度にキュレートされたデータで、事実の情報源として機能 任意のデータで、キュレートできるかどうかは不明 (raw データ)
ユーザー ビジネスアナリスト (キュレートされたデータを使用する) データサイエンティスト、データ開発者、ビジネスアナリスト
分析 バッチレポート、BI、可視化 機械学習、予測分析、データ検出、プロファイリング

データレイクと分析ソリューションに不可欠な要素

データレイクと分析プラットフォームを構築する企業は、いくつかの主な機能について検討する必要があります。以下のような機能があります。

データの移動

データレイクでは、リアルタイムで送信されるデータをいくらでもインポートできます。データは複数の情報源から収集され、元の形式のままデータレイクに移動されます。このプロセスによりデータを任意のサイズにスケールできるようになり、データ構造、スキーマ、変換を定義する時間を節約できます。

データの安全な保存とカタログ作成

データレイクでは、リレーショナルデータ (業務データベースや基幹業務アプリケーションからのデータ) と非リレーショナルデータ (モバイルアプリケーション、IoT デバイス、ソーシャルメディアからのデータ) を保存できます。また、データのクローリング、カタログ作成、インデックス作成により、データレイクに保存されているデータを把握することもできます。さらに、データアセットを保護するためにデータはセキュアである必要があります。

分析

データレイクでは、データサイエンティスト、データ開発者、ビジネスアナリストなど、企業内のさまざまな職務を担当するユーザーが、任意の分析ツールやフレームワークを使ってデータにアクセスできます。これには、Apache Hadoop、Presto、Apache Spark といったオープンソースフレームワーク、ならびにデータウェアハウスベンダーやビジネスインテリジェンスベンダーが販売している製品が含まれます。データレイクでは、データを別の分析システムに移動させることなく分析を実行できます。

Machine Learning

データレイクを使用する企業では、履歴データのレポートを作成することや、結果予測モデルを構築する際に機械学習を実施することなどにより、さまざまなタイプのインサイトを生成し、最適な結果を得るための所定のアクションとして幅広い選択肢を提示することができます。

データレイクの価値

これまでよりも多くの情報源から、より多くのデータをこれまでよりも短い時間で活用できる機能、ならびにユーザーがさまざまな方法でデータのコラボレーションと分析を行うことができる機能により、的確な意思決定を迅速に行えるようになります。データレイクでは、以下のような分野で付加価値が発生します。

お客様とのやり取りの改善

データレイクでは、CRM プラットフォームから取得した顧客データをソーシャルメディア分析、購入履歴を含むマーケティングプラットフォーム、インシデントチケットと組み合わせることで、最も収益につながる顧客コホート、顧客離れの原因、ロイヤルティを向上させるプロモーションや特典を把握できます。

研究開発のイノベーションにおける選択肢の増加

データレイクは、研究開発チームが仮説を検証して仮定を修正し、結果を見積もるうえで役立ちます。例えば、製品設計で高速化のために最適な素材を選択すること、遺伝子研究によって効果的な医薬品を開発すること、どのような属性を設定すると顧客が購買意欲を示すかを把握することができます。

業務効率の向上

IoT によって、製造などのプロセスでデータを収集するさまざまな方法が登場しています。このような方法では、インターネットに接続されたデバイスからデータをリアルタイムで取得できます。データレイクでは、機械が生成した IoT データの保存と分析が簡単になり、運用コストが削減されると同時に品質が向上します。 

データレイクの課題

データレイクアーキテクチャの主な課題は、内容が確認されないまま raw データが保存されることです。データレイクでデータを使用可能な状態に保つには、カタログを作成してデータを保護するためのメカニズムを定義しておく必要があります。このような要素がないとデータが見つからなくなり、"データの沼" になってしまいます。 幅広いユーザーのニーズを満たすには、データレイクがガバナンス、セマンティックの一貫性、アクセス制御を備えている必要があります。

 

クラウド内でのデータレイクのデプロイ

データレイクはクラウド内でデプロイするために理想的なワークロードです。クラウドには、パフォーマンス、スケーラビリティ、信頼性、可用性、多様な分析エンジン、圧倒的なスケールメリットといった利点があるためです。ESG 社の調査では、回答者の 39% がクラウドを分析の主なデプロイ先として検討しており、41% がデータウェアハウスのデプロイ先、43% が Spark のデプロイ先として検討していることがわかりました。クラウドがデータレイクに有効だとお客様が考えている主な理由は、優れたセキュリティ、デプロイ時間の短さ、高い可用性、機能の頻繁なアップデート、高い伸縮性、利用可能地域の広さ、実際の使用量に応じたコストです。

 

AWS を使ったクラウド内でのデータレイクの構築

AWS では、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオを提供しており、お客様はクラウド上にデータレイクを構築し、機械学習を含むさまざまな分析アプローチを使用して IoT デバイスのデータなどのすべてのデータを分析できます。そのため、AWS でデータレイクと分析を運用している企業が増えており、その数は業界トップです。NETFLIX、Zillow、NASDAQ、Yelp、iRobot、FINRA といった企業が、AWS でビジネスクリティカルな分析ワークロードを実行しています。詳細はこちらをご覧ください。

データレイクに関するその他のリソース

業界アナリストがデータレイクについて説明しています。

AWS の開始方法

icon1

AWS アカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。
AWS でのデータレイクと分析についての詳細をご覧ください。
icon2

AWS でのデータレイクの詳細について確認する

AWS でのデータレイクのデプロイについて詳しくは、 こちらをご覧ください。データレイクのアーキテクチャの設計に関するセッションはこちらから、ビッグデータのアーキテクチャパターンに関するセッションは こちらから視聴できます。 FINRAAmazon.comRovioSysco Foods といったお客様がデータレイクを構築した方法についてのセッションをご覧ください。
icon3

AWS で構築を開始する

データを Amazon S3 にアップロードし、AWS Glue でデータの カタログを作成して、Amazon Athena でデータの クエリを開始してください。Amazon Redshift Spectrum で データウェアハウジングのクエリ、Amazon EMR で Hadoop と Spark、Amazon Sagemaker で 機械学習を実行してください。
POC についてのサポートが必要な場合は、 お問い合わせいただくか、 AWS クイックスタートを使ってデータレイクをデプロイしてください。