レイクハウスアプローチとは

データレイク、データウェアハウス、および専用データストアをシームレスに統合します

レイクハウスアプローチ - 仕組み

レイクハウスアプローチは、ワンパターンの分析アプローチを採用することは最終的に妥協につながる、という考え方を踏まえたものとなっています。これは、単にデータレイクをデータウェアハウスと統合するというよりは、データレイク、データウェアハウス、および専用ストアを統合して、統一的なガバナンスと簡単なデータ移動を可能にすることを意味しています。AWS でレイクハウスアーキテクチャを利用すると、お客様はデータレイクにデータを保存し、レイク周りの一連の専用データサービスを利用して、マーケットで他には見られない規模と料金/パフォーマンスで、スピードと俊敏性をもって意思決定を行うことができます。

レイクハウスアーキテクチャでは、お客様は次のことを行う必要があります。

  • スケーラブルなデータレイクを迅速に構築する
  • 専用データサービスの幅広く深いコレクションを使用する
  • データへのアクセスを保護、モニタリング、および管理するための統一された方法でコンプライアンスを確保する
  • パフォーマンスを損なうことなく、低コストでシステムをスケールする
仕組み - レイクハウスアプローチ

レイクハウスアプローチが必要な理由

データボリュームは前例のない速度で増加しており、テラバイト規模からペタバイト規模、時にはエクサバイト規模へと爆発的に増加しています。従来のオンプレミスのデータ分析アプローチでは、十分にスケールできず、費用がかかりすぎるため、これらのデータ量を処理することはできません。多くの企業は、さまざまなサイロからすべてのデータを取得し、そのすべてのデータを 1 つの場所 (多くの場合、データレイクと呼ばれます) に集約して、直接そのデータに基づいて分析と ML を実行しています。また、これらの企業は、構造化データと非構造化データの両方を分析して迅速にインサイトを得るために、専用のデータストアに他のデータを保存している場合もあります。データには重力があるため、このデータの移動は「内部から外部へ」、「外部から内部へ」、または「周辺」になります。

  • 内部から外部へ
  • 外部から内部へ
  • 周辺
  • データ重力
  • 内部から外部へ
  • 内部から外部へのデータ移動

    データレイクにデータを保存し、そのデータの一部を専用のデータストアに移動して、追加の機械学習や分析を行うお客様。

    : ウェブアプリケーションからのクリックストリームデータを直接データレイクに集め、そのデータの一部をデータウェアハウスに移動して日次レポートを作成できます。当社では、この概念を内部から外部へのデータ移動と考えています。

    内部から外部へのデータ移動
  • 外部から内部へ
  • 外部から内部へのデータ移動

    お客様は、データウェアハウスやデータベースなどの専用データストアにデータを保存し、そのデータをデータレイクに移動して、そのデータの分析を実行しています。 

    : 特定の地域での製品の販売に関するクエリ結果をデータウェアハウスからデータレイクにコピーし、ML を使用してより大きなデータセットに対して製品レコメンデーションアルゴリズムを実行します。

    外部から内部へのデータ移動
  • 周辺
  • 周辺のデータ移動

    データレイク、データウェアハウス、および専用データストアをシームレスに統合します。 

    : データベースに保存されている製品カタログデータを検索サービスにコピーして、そのサービスが製品カタログを簡単に調べ、データベースから検索クエリを容易にオフロードできるようにすることが可能です。

    外部から内部へのデータ移動
  • データ重力
  • データ重力

    これらのデータレイクや専用ストアのデータが増え続けると、データには重力があるため、これらすべてのデータを移動することが難しくなります。分析とインサイトの取得を可能にするために、適切なコントロールを使用して、必要な場所に簡単にデータを移動できるようにすることも同様に重要です。

    データ重力

レイクハウスアプローチの柱

組織は、さまざまなサイロからデータを取得し、そのすべてのデータを 1 つの場所に集約して、そのデータに基づいて分析と機械学習を実行しています。そこから最大の価値を引き出すには、データレイクと専用のデータストア間でデータを簡単に移動できるレイクハウスアプローチを活用する必要があります。この最新のアーキテクチャの設計には、次が必要です。

AWS で他のどこよりも多くのお客様がレイクハウスを構築しています

  • lake_house_customers_logo_bmw
  • lake_house_customers_logo_nielsen
  • lake_house_customers_logo_engie
  • BMW Group
  • BMW Group
    BMW Group

    イノベーションを加速し、データの使用を大規模に民主化するために、BMW Group は Amazon S3 を利用したデータレイクにオンプレミスのデータレイクを移行しました。BMW は現在、数百万台の車両からの TB 規模のテレメトリデータを毎日処理し、お客様に影響が及ぶ前に問題を解決しています。

    導入事例を読む 
  • Nielsen
  • Nielsen
    Nielsen

    世界的な測定およびデータ分析企業である Nielsen は、最新のクラウドテクノロジーを利用することで、毎日取り込み、処理し、クライアントに報告できるデータの量を大幅に増やしました。測定数は、1 日あたり 4 万世帯から、3000 万世帯を超えるまでになりました。

    導入事例を読む 
  • Engie
  • Engie
    lake_house_customers_logo_engie

    ENGIE’s は、フランスで最大の公益事業会社の 1 つであり、70 か国に 16 万人の従業員と 40 の事業部門を擁しています。Common Data Hub の約 100 TB のデータレイクは、AWS のサービスを使用して、データサイエンス、マーケティング、およびオペレーションのビジネスニーズに対応しています。

    導入事例を読む 

パートナー

当社のパートナーが、AWS でのレイクハウスアプローチを活用して、組織が最新のデータアーキテクチャを構築するのをどのようにサポートしているかをご覧ください。

Cloudera

Cloudera

AWS で Cloudera Enterprise を実行することにより、最新のデータ処理と分析の土台として機能させることができるデータ管理プラットフォームが IT ユーザーとビジネスユーザーに提供されます。

詳細はこちら »

Informatica Cloud

Informatica Cloud

Informatica Cloud は、AWS のデータサービスへの最適化された統合を実現し、100 を超えるアプリケーションへのネイティブ接続を備えています。

詳細はこちら »

Dataguise

Dataguise

Dataguise はセキュアなビジネスの遂行におけるリーダーで、エンタープライズの機密データがどこに保管されているか、またはそれを利用する必要があるのは誰かにかかわらず、機密データを検知し、保護するデータセントリックなセキュリティソリューションを提供しています。

詳細はこちら »

Alluxio Data Orchestration

Alluxio Data Orchestration

Alluxio Data Orchestration を利用すると、EMR や S3 などの主要な AWS のサービスを分析と AI ワークロードに活用できます。

詳細はこちら »

開始方法

AWS Data Driven Everything プログラム

AWS Data-Driven Everything
AWS Data-Driven EVERYTHING (D2E) プログラムでは、AWS はお客様と提携して、より速く、より正確に、そしてはるかに野心的な範囲で、お客様自身のデータフライホイールをジャンプスタートさせます。

詳細はこちら »

AWS データラボ

AWS データラボ
AWS データラボは、お客様と AWS 技術リソースの間で高速な共同エンジニアリングエンゲージメントを提供します。この実践的な取り組みでは、データと分析を最新化するイニシアチブを加速していきます。

詳細はこちら »

AWS 分析とビッグデータリファレンスアーキテクチャ

AWS 分析とビッグデータリファレンスアーキテクチャ
AWS 上でのクラウドデータ分析、データウェアハウジング、データ管理のためのアーキテクチャベストプラクティスを学びます。

詳細はこちら »