メインコンテンツに移動

データレイクハウスとは?

データレイクハウスは、コスト効率が高く柔軟なストレージを大規模に提供すると同時に、構造化、ガバナンス、レポートなどの分析機能も提供するデータ管理システムです。これにより、数千または数十万のソースからのさまざまな形式の未加工データを一元的な場所により費用対効果の高い方法で保存できます。このデータは、AI モデルをトレーニングしたり、レポートやダッシュボードを生成したりするための分析ツールでも使用できます。データレイクハウスには多くの機能が備わり、レイクハウス内の未加工データを処理してさらに分析できます。

データレイク、データウェアハウス、データレイクハウスの違いは何ですか?

データレイクハウスアーキテクチャは、データウェアハウスとデータレイクという、従来からある 2 つの一元化データストアの長所を組み合わせて誕生しました。

データウェアハウス

データウェアハウスは、標準データスキーマに基づいて構造化データを保存するデータストレージシステムです。スキーマは、リレーショナルデータベース内の情報のデータ形式、関係、構造を決定する事前定義済みのブループリントです。

組織はデータウェアハウスシステムを使用して、データ処理、ビジネスインテリジェンス分析、エンタープライズレポートにすばやくアクセスできます。データウェアハウスは、高度な分析ツールへのアクセス、堅牢なデータガバナンス、および技術者以外のユーザーの使いやすさをもたらします。例えば、データウェアハウスのダッシュボードを使用してマーケティングパフォーマンスレポートを取得できます。

ただし、データウェアハウスでは、データライフサイクルにさらにステップが加わります。分析に対応したインサイトを得るために、データはデータウェアハウスに保存される前に、いくつかの抽出、変換、ロード (ETL) パイプラインを経ます。さらに、データウェアハウスでは、人工知能機械学習のワークロードに必要な非構造化データや半構造化データを処理できません。データウェアハウスのセットアップでは、ストレージとコンピューティング能力が緊密に連携しているため、インフラストラクチャのスケーリングコストが増加します。

データレイク

データレイクは、データを元の形式で保持するストレージシステムです。データサイエンティストは、データレイクを使用して構造化データ、非構造化データ、および半構造化データを保存します。情報は ETL パイプラインを経由しないため、データレイクへのデータ保存は高速です。代わりに、未加工データはそのまま保存されます。したがって、データレイクは、リアルタイムのデータストリームを含む大量の情報を高速で保存できます。

データ量が多いため、クラウドデータレイクはデータ探索、機械学習、その他のデータサイエンスの用途に最適です。また、データレイクはストレージホスティングが低コストであるため、より安価でスケールできます。

データウェアハウスとは異なり、データレイクに保存されているデータにアクセスするには技術的な専門知識が必要なため、データへのアクセスは少数のユーザーグループに制限されます。つまり、データサイエンスに精通したユーザーだけが、未加工データを抽出、操作、分析してビジネスインサイトを得ることができます。さらに、データレイクが管理されていないと、データの沼地になる可能性があります。データの沼地とは、データがまとまっていない状態であり、意味のあるインサイトを引き出すのが難しくなります。

データレイクハウス

データレイクハウスは、データウェアハウスとデータレイクの利点を組み合わせた統合データアーキテクチャです。さまざまなデータタイプ向けの、高性能で手頃な価格のガバナンスに適したストレージスペースを提供します。

データウェアハウスとは異なり、データレイクハウスは機械学習のために半構造化データと非構造化データを保存できます。さらに、データレイクハウスアーキテクチャは、ビジネスマネージャーがレポート作成や実用的なインサイトの抽出に使用する SQL 分析ツールで構成されています。

データレイクハウスの主な機能にはどのようなものがありますか?

データレイクハウスは、組織がスケーラブル、複雑で低レイテンシーのデータ処理ハブを構築するためのデータ管理機能を提供します。以下に、データレイクハウスの主な特徴をいくつかご紹介します。

多様なデータタイプとワークロードをサポート

データレイクハウスは、テキスト、画像、動画、音声ファイルなど、さまざまなデータタイプを保存できます。追加の変換手順や厳密なスキーマは必要ありません。これにより、迅速なデータインジェストが可能になり、接続されたアプリケーションのデータの鮮度が保証されます。

データの多様性をサポートするために、データレイクハウスは未加工データをオブジェクトベースのストレージに保存します。オブジェクトベースのストレージは、大量の非構造化データを処理するために最適化されたデータストレージアーキテクチャの一種です。

トランザクションサポート

データレイクハウスは、従来のデータベースに見られるような ACID 準拠のトランザクションを保存するためのデータ管理機能を提供します。ACID は、原子性、一貫性、独立性、耐久性の略です。

  • 原子性は、すべてのデータトランザクションを 1 つの単位として扱います。つまり、正常に実装されているかどうかは関係ありません。
  • 一貫性とは、特定のデータテーブルを更新するときに発生するデータベースの予測可能な動作を指します。すべての更新は、データの一貫性を保証する定義済みのルールに従います。
  • 独立性により、互いに干渉することなく複数のトランザクションを実行できます。複数のユーザーが同時にデータベースを更新している場合でも、各操作は個別に実行されます。つまり、あるトランザクションは次のトランザクションが開始される前に終了します。
  • 耐久性とは、システムに障害が発生した場合でも変更を保持して保存するデータベースの能力です。

ACID は連携してデータの整合性を確保し、ソフトウェアチームが信頼性の高いトランザクションデータストレージに依存するアプリケーションを構築できるようにします。

ストリーミング取り込み

データストリームは、モノのインターネット (IoT) デバイス、金融取引、アプリケーションサービスなどのデータソースから発生する継続的な情報の流れです。

一部のアプリケーションでは、データの変更をほぼリアルタイムで反映して可視化するためにデータストリーミングが必要です。データレイクハウスアーキテクチャは、データストリームを取り込み、ユーザー向けアプリケーションで使用できるようにします。さらに、データサイエンティストはデータストリームに基づいて分析ツールを構築し、チャート、表、グラフで可視化できます。

ゼロ ETL 統合

ゼロ ETL は、データを移動する際に複雑なデータ変換パイプラインをバイパスするデータプロセスです。データレイクハウスインフラストラクチャにより、ゼロ ETL 統合が可能になります。

従来、組織はデータウェアハウスとデータレイク上にワークロードを構築していました。これらのデータ設定には、データのクエリと変換のための追加の ETL パイプラインが必要です。ETL 統合が不要なため、データサイエンティストは追加のデータパイプラインを構築しなくても、さまざまなデータサイロにクエリを実行できます。

データレイクハウスはデータを取り込むと、ビジネス分析の要件に合った形式に自動的に変換します。例えば、Amazon RedshiftAmazon Aurora とのゼロ ETL 統合をサポートしています。Redshift はデータウェアハウスであり、Aurora はリレーショナルデータベース管理システムです。統合されると、Aurora が取り込んだデータは数秒以内に Redshift に自動的にレプリケートされます。これにより、組織はシンプルで費用対効果の高いデータインフラストラクチャを維持しながら、インサイトを得るまでの時間を増やすことができます。

統合分析

データレイクハウスは、保存されているすべてのデータにアクセスするための統合データプラットフォームを提供します。データアーキテクトは、複数のシステムにわたるデータの重複、不整合、断片化を克服するのに役立ちます。

一元化分析のもう 1 つの主な利点は、クラウドストレージ間の不必要なデータ移動を回避できることです。データチームは、サイロ化されたデータをクエリするのではなく、データレイクハウスに接続された単一のインターフェイスからデータを保存、分析、共有できます。例えば、機械学習ワークロードの非構造化データを取得し、1 つのデータコピーからマーケティングパフォーマンスレポートを生成できます。

クエリエディタ

データアナリスト、機械学習エンジニア、データユーザーは、SQL クエリエディタを使用してデータレイクハウス内のデータに簡単にアクセスできます。データ分析、可視化、履歴データの閲覧、データベーススキーマの作成などを行うための SQL コマンドを作成できます。また、クエリエディタを使用すると、データエンジニアが作成したクエリを簡単に共有できるため、コラボレーションが向上します。

機械学習/AI サポート

データレイクハウスは、人工知能と機械学習 (AI/ML) ワークロードの構築、テスト、スケーリングを目的として設計されています。多くのデータレイクハウスプロバイダーは、非構造化データへの直接アクセスを提供することに加えて、AI 開発を簡素化する機械学習ライブラリ、ツール、分析を提供しています。

例えば、Amazon SageMaker Lakehouse は Amazon SageMaker Unified Studio とシームレスに統合されているため、AI/ML ワークフローを迅速化するためのツールや分析にアクセスできます。

データレイクハウスの仕組みはどのようなものですか?

データレイクハウスは、データウェアハウスの高度な分析機能とデータレイクの柔軟性を組み合わせて、スケーラブルで手頃な料金の強力なデータプラットフォームを提供します。データレイクハウスを選択すると、データレイクとデータウェアハウスのインフラストラクチャを別々に維持することなく、ビジネスインサイトをより迅速に得ることができます。

データレイクハウスは、さまざまなリソースからデータを取り込み、内部で整理し、さまざまなデータユーザーにさまざまな形式でデータを提供します。さらに、データレイクハウスのコンピューティングはストレージとは別のものです。ストレージとコンピューティングを分離することで、これらの機能を個別にスケールしてコスト削減を最大化できます。

以下では、データレイクハウスを形成するデータレイヤーを紹介します。

取り込みレイヤー

取り込みレイヤーは、データレイクハウスをアプリケーションログ、データベース、ソーシャルメディアフィードなどのさまざまなタイプのデータソースに接続します。このレイヤーでは、データは元の形式で保存されます。

ストレージレイヤー

ストレージレイヤーは、受信した未加工データを受信し、低コストでスケーラブルなストレージに保存します。データレイクハウスのセットアップでは、このレイヤーはクラウドオブジェクトストレージにリンクすることがよくあります。オブジェクトストレージは、構造化データ、半構造化データ、非構造化データなど、さまざまなタイプのデータをサポートします。

ユースケースによっては、一部のデータはオブジェクトストレージに保存された後に変換されます。例えば、取り込んだデータを使用して機械学習モデルをトレーニングする場合、データレイクハウスはデータを Parquet 形式に変換して保存します。Parquet は、構造化データを列に分離して効率的に保存および処理するように設計されたオープンファイル形式です。

ステージングレイヤー

ステージングレイヤー、つまりメタデータレイヤーは、データレイクハウスに保存されているデータを管理、整理、最適化するためのスキーマサポートを提供します。このレイヤーでは、データ品質を確保するためのポリシーを定義し、コンプライアンスのために監査可能な証跡を作成できます。さらに、データチームは、従来のデータウェアハウスにあるのと同様の ACID トランザクション、ファイルインデックス作成、データバージョニング、キャッシュを使用して、信頼性の高いデータワークフローを作成できます。

API レイヤー

アプリケーションプログラミングインターフェイス (API) レイヤーにより、ソフトウェアデベロッパーとアプリケーションはデータレイクハウスに保存されているデータをクエリできます。データへのきめ細かなアクセスが可能になり、プログラムを使用してデータからより高度な分析を構築できます。例えば、ソフトウェアチームは API コールを行ってデータストリームをリアルタイムで取得し、投資アプリケーションのダッシュボードを強化できます。

セマンティックレイヤー

セマンティックレイヤーは、データレイクハウスの最上位レイヤーです。セマンティックレイヤーはデータ消費レイヤーとも呼ばれ、データ分析ツールと、保存されたデータとスキーマへのアクセスを提供するアプリケーションで構成されています。ビジネスユーザーは、このレイヤーにあるツールを使用して、レポートの生成、グラフの作成、インサイトのクエリ、その他のデータ分析を行うことができます。

AWS はデータレイクハウスの要件をどのようにサポートできますか?

Amazon SageMaker Lakehouse は、組織がエクサバイト単位のデータを処理してビジネスインサイトを得たり、AI ワークロードを推進したりするために使用するデータレイクハウスです。Amazon SageMaker Lakehouse は AWS のデータストレージ、分析、および機械学習サービスと緊密に統合されているため、次のことに役立ちます。

  • データにすぐにアクセスして、ほぼリアルタイムの分析を行うこと
  • 人工知能と機械学習のモデルを 1 つのデータハブで構築すること
  • 移動やコピーを最小限に抑えて、データに安全にアクセス、結合、共有すること

Amazon SageMaker Lakehouse は、コンピューティングとストレージを分離して効率的なスケーリングを行うアーキテクチャを採用しているため、他のクラウドデータレイクハウスよりもコストパフォーマンスが優れています。

Amazon SageMaker Lakehouse は AWS データウェアハウスおよびデータレイクと統合されています。

  • Amazon Redshift は、SQL を使用してデータレイクハウスに大規模で比類のない料金パフォーマンスをもたらすデータウェアハウスソリューションです。
  • Amazon S3 は、任意の量のデータの保存と取得をどこからでも行えるように設計されたデータレイクのオブジェクトストレージです。

今すぐ無料アカウントを作成して、AWS でデータレイクハウスの使用を開始しましょう。