データウェアハウスの概念

データウェアハウスとは?

データウェアハウスは、より多くの情報に基づく意思決定を行うための、分析可能な情報のセントラルリポジトリです。データは、通常一定の周期で、トランザクションシステム、リレーショナルデータベース、その他のソースからデータウェアハウスに移されます。ビジネスアナリスト、データエンジニア、データサイエンティスト、および意思決定者は、ビジネスインテリジェンス (BI) ツール、SQL クライアント、その他の分析アプリケーションを通してそのデータにアクセスします。

企業が競争力を維持するためには、データと分析が不可欠になっています。企業ユーザーは、レポート、ダッシュボード、そして分析ツールを使用してデータからインサイトを引き出し、ビジネスパフォーマンスをモニタリングし、意思決定に役立てています。データウェアハウスは、データの入出力 (I/O) を最小限に抑え、クエリ結果を数百、数千のユーザーに同時に迅速に配信するために、データを効率的に格納することにより、これらのレポート、ダッシュボード、および分析ツールを強化します。

データウェアハウスはどのように設計されていますか?

データウェアハウスアーキテクチャは層になっています。最上層は、レポート、分析、データマイニングツールを通して結果を表示するフロントエンドクライアントです。中間層は、データのアクセスや分析に使用される分析エンジンで構成されています。アーキテクチャの最下層は、データがロードされ保存されるデータベースサーバーです。データは 2 種類の方法で保存されます。すなわち、1) 頻繁にアクセスされるデータは (SSD ドライブのような) 非常に高速なストレージに保存され、2) アクセスが低頻度であるデータは Amazon S3 などの安価なオブジェクトストアに保存されます。データウェアハウスは、頻繁にアクセスされるデータが「高速」ストレージに移動されることを自動的に確認するため、クエリ速度が最適化されます。

データウェアハウスの仕組みはどのようなものですか?

データウェアハウスには複数のデータベースが含まれる場合があります。各データベース内で、データはテーブルと列に編成されます。各列内で、整数、データフィールド、文字列などのデータの説明を定義できます。テーブルはスキーマの内部に編成できます。スキーマはフォルダと考えることができます。データは、取り込まれると、スキーマで説明されているさまざまなテーブルに保存されます。クエリツールは、スキーマを使用して、どのデータテーブルにアクセスし分析するかを決定します。

データウェアハウスを使用する利点は何ですか?

データウェアハウスの利点は次のとおりです。

  • 情報に基づく意思決定
  • 多数のソースから統合されたデータ
  • 履歴データの分析
  • データの品質、一貫性、正確性を維持
  • 分析処理をトランザクションデータベースから分離し、両システムのパフォーマンスを向上

データウェアハウス、データベース、およびデータレイクはどのように連携しますか?

通常、企業はデータベース、データレイク、およびデータウェアハウスを組み合わせて使用して、データを保存および分析します。Amazon Redshift のレイクハウスアーキテクチャは、このような統合を容易にします。

データの量と種類が増えるにつれ、データベース、データレイク、およびデータウェアハウス全体でデータを操作するための 1 つまたは複数の一般的なパターンに従うことがより有利になります。

データベースまたはデータレイクにデータを配置し、データを準備し、選択したデータをデータウェアハウスに移動し、レポートを実行します

画像 (上): データベースまたはデータレイクにデータを配置し、データを準備し、選択したデータをデータウェアハウスに移動し、レポートを実行します。

データウェアハウスにデータを配置し、データを分析してから、他の AWS Analytics 製品で使用するためにデータを共有します

画像 (上): データウェアハウスにデータを配置し、データを分析してから、他の分析サービスや機械学習サービスで使用するためにデータを共有します。

データウェアハウスは、特にデータ分析向けに設計されており、大量のデータを読み取り、データ全体で関係や傾向を把握できます。データベースは、トランザクションの詳細の記録など、データを取得し保存するのに使用されます。

データレイクはデータウェアハウスとは異なり、構造化データ、半構造化データ、および非構造化データを含むすべてのデータの集中リポジトリです。データウェアハウスでは、データが表形式で編成されている必要があります。スキーマはここで役立ちます。SQL を使用してデータを照会できるようにするには、表形式が必要です。しかし、すべてのアプリケーションでデータを表形式にする必要があるわけではありません。ビッグデータ分析、全文検索、機械学習などの一部のアプリケーションは、「半構造化」または完全に非構造化であっても、データにアクセスできます。

データウェアハウスとデータレイクの比較

特徴 データウェアハウス データレイク
データ

トランザクションシステム、業務データベース、基幹業務アプリケーションからのリレーショナルデータ

構造化データ、半構造化データ、非構造化データを含むすべてのデータ

スキーマ

多くの場合、データウェアハウスの実装前に設計されますが、分析時に書き込むこともできます

(スキーマオンライトまたはスキーマオンリード)

分析時に書き込み (スキーマオンリード)

料金/パフォーマンス

ローカルストレージを使用、クエリ結果の取得は最速

低コストのストレージと、コンピューティングとストレージとの分離を使用してクエリ結果を高速化

データ品質

高度にキュレートされたデータで、事実の情報源として機能

キュレートできるデータ、またはできないデータ (生データなど)

ユーザー

ビジネスアナリスト、データサイエンティスト、データデベロッパー

ビジネスアナリスト (キュレートされたデータを使用)、データサイエンティスト、データデベロッパー、データエンジニア、およびデータアーキテクト

分析

バッチレポート、BI、および視覚化

機械学習、探索的分析、データ検出、ストリーミング、運用分析、ビッグデータ、およびプロファイリング

データウェアハウスとデータベースの比較

特徴 データウェアハウス トランザクションデータベース

適切なワークロード

分析、レポート、ビッグデータ

トランザクション処理
データソース 多数のソースから収集され、正規化されたデータ

トランザクションシステムなど、単一のソースからそのまま取得されたデータ

データキャプチャ

通常、所定のバッチスケジュールに従って行われる一括書き込み操作

新規データを利用してトランザクションスループットを最大化できるため、継続的な書き込み操作に最適

データの正規化

スタースキーマやスノーフレークスキーマなどの非正規化スキーマ

高度に正規化されたスタティックスキーマ

データストレージ

簡単なアクセスや、列指向ストレージを使用した高速クエリパフォーマンスに最適

単一行指向の物理ブロックへの高スループットの書き込み操作に最適

データアクセス

最低限の I/O で最大のデータスループットを実現するのに最適

大量の小規模読み取り操作

データマートはデータウェアハウスとどのように比較されますか?

データマートは、特定のチームや部署 (財務、マーケティング、営業など) のニーズに対応したデータウェアハウスです。規模が小さく、的が絞られており、ユーザーのコミュニティにとって最適なデータの概要が保存されています。データマートがデータウェアハウスの一部である場合もあります。

データウェアハウスとデータマートの比較

特徴 データウェアハウス データマート
範囲

集中化されており、複数のサブジェクト領域が統合されている

集中化されていない、特定のサブジェクト領域

ユーザー

組織全体

単一のコミュニティや部署

データソース

多数のソース

1 つまたは少数のソース。あるいは、データウェアハウスにすでに収集されているデータの一部

サイズ

大規模。数百ギガバイトからペタバイトが可能

小規模。通常は最大数十ギガバイト

設計

トップダウン

ボトムアップ

データの詳細

完全で詳細なデータ

要約されたデータを保存可能

AWS にデータウェアハウスをデプロイするにはどうすればよいですか?

AWS では、一見無制限のストレージやコンピューティング性能へのアクセス、収集、保存、およびクエリされるデータ量の増加と並行したシステムのスケーリング、プロビジョンしたリソースのみに対しての支払いなど、オンデマンドコンピューティングに関する主な利点をすべて活用できます。AWS ではシームレスに統合された幅広いマネージドサービスが提供され、エンドツーエンドの分析、およびデータウェアハウジングソリューションをすばやくデプロイできます。

次の図は、スタックとも呼ばれるエンドツーエンドの分析プロセスの主要なステップを示しています。AWS は、各ステップでさまざまなマネージドサービスを提供しています。

AWS は、分析プロセスの各ステップでさまざまな製品とサービスを提供しています

画像 (上): AWS は、分析プロセスの各ステップでさまざまな製品とサービスを提供しています

Amazon Redshift は、高速でフルマネージド型のコスト効率にも優れたデータウェアハウスサービスです。ペタバイト規模のデータウェアハウジングとエクサバイト規模のデータレイク分析を 1 つのサービスにまとめて提供します。このサービスは従量制料金となります。

次のステップ