AWS クラウド
Amazon Redshift の使用を開始する

データウェアハウスは、十分な情報に基づく優れた意思決定を行うための、分析可能な情報のセントラルリポジトリです。データは、通常一定の周期で、トランザクションシステム、リレーショナルデータベース、その他のソースからデータウェアハウスに移されます。ビジネスアナリスト、データサイエンティスト、意思決定者は、ビジネスインテリジェンス (BI) ツール、SQL クライアント、その他の分析アプリケーションを通してそのデータにアクセスします。

企業が競争力を維持するためには、データと分析が不可欠になっています。企業はレポート、ダッシュボード、そして分析ツールを使用してデータからインサイトを引き出し、ビジネスパフォーマンスをモニタリングし、意思決定をサポートしています。このようなレポート、ダッシュボード、分析ツールは、いずれもデータウェアハウスによって支えられています。データウェアハウスには I/O を最小化するよう効率よくデータが保存され、何百人、何千人というユーザーにクエリの結果を高速で同時に提供できます。

ホワイトペーパー: AWS でのエンタープライズデータウェアハウジングをダウンロードする

データウェアハウスのアーキテクチャは、3 つの層で構成されています。アーキテクチャの最下層は、データがロードされ保存されるデータベースサーバーです。中間層は、データのアクセスや分析に使用される分析エンジンで構成されています。最上層は、レポート、分析、データマイニングツールを通して結果を表示するフロントエンドクライアントです。

データウェアハウスは、データレイアウトやデータ型 (整数、データフィールド、文字列など) を説明するスキーマにデータを編成することによって機能します。データは、取り込まれると、スキーマで説明されているさまざまなテーブルに保存されます。クエリツールは、スキーマを使用して、どのデータテーブルにアクセスし分析するかを決定します。

データウェアハウスのメリットには、以下が挙げられます。

  • 優れた意思決定が可能
  • 多数のソースからデータを統合
  • データの品質、一貫性、正確性を維持
  • ヒストリカルインテリジェンス
  • 分析処理をトランザクションデータベースから分離し、両システムのパフォーマンスを向上

 

データウェアハウスは、特にデータ分析向けに設計されており、大量のデータを読み取り、データ全体で関係や傾向を把握できます。データベースは、トランザクションの詳細の記録など、データを取得し保存するのに使用されます。

特徴 データウェアハウス トランザクションデータベース
適切なワークロード 分析、レポート、ビッグデータ トランザクション処理
データソース 多数のソースから収集され、正規化されたデータ トランザクションシステムなど、単一のソースからそのまま取得されたデータ
データキャプチャ 通常、所定のバッチスケジュールに従って行われる一括書き込み操作

新規データを利用してトランザクションスループットを最大化できるため、継続的な書き込み操作に最適

データの正規化 スタースキーマやスノーフレークスキーマなどの非正規化スキーマ 高度に正規化されたスタティックスキーマ
データストレージ 簡単なアクセスや、列指向ストレージを使用した高速クエリパフォーマンスに最適 単一行指向の物理ブロックへの高スループットの書き込み操作に最適
データアクセス 最低限の I/O で最大のデータスループットを実現するのに最適 大量の小規模読み取り操作

データレイクはデータウェアハウスとは異なり、構造化データと非構造化データを含むすべてのデータの集中リポジトリです。データウェアハウスは、分析用に最適化された事前定義済みスキーマを使用します。データレイクでは、スキーマは定義されておらず、ビッグデータ分析、フルテキスト検索、リアルタイム分析、機械学習などのさまざまなタイプの分析が可能です。

特徴 データウェアハウス データレイク
データ トランザクションシステム、業務データベース、基幹業務アプリケーションからのリレーショナルデータ IoT デバイス、ウェブサイト、モバイルアプリ、ソーシャルメディア、企業アプリケーションからの非リレーショナルデータとリレーショナルデータ
スキーマ データウェアハウスの実装前に設計 (スキーマオンライト) 分析時に書き込み (スキーマオンリード)
価格/パフォーマンス 高コストのストレージを使用、クエリ結果の取得は最速 低コストのストレージを使用、クエリ結果の取得は加速中
データ品質 高度にキュレートされたデータで、事実の情報源として機能 キュレートできるデータ、またはできない (生データなど) データ
ユーザー ビジネスアナリスト、データサイエンティスト、データ開発者 (キュレートされたデータを使用する) データサイエンティスト、データ開発者、ビジネスアナリスト
分析 バッチレポート、BI、および視覚化 機械学習、予測分析、データ検出、およびプロファイリング

データマートは、特定のチームや部署 (財務、マーケティング、営業など) のニーズに対応したデータウェアハウスです。規模が小さく、的が絞られており、ユーザーのコミュニティにとって最適なデータの概要が保存されています。

特徴 データウェアハウス データマート
スコープ 集中化されており、複数のサブジェクト領域が統合されている 集中化されていない、特定のサブジェクト領域
ユーザー 組織全体 単一のコミュニティや部署
データソース 多数のソース 1 つまたは少数のソース。あるいは、データウェアハウスにすでに収集されているデータの一部
サイズ 大規模。数百ギガバイトから数百ペタバイトが可能 小規模。通常は最大数十ギガバイト
設計 トップダウン ボトムアップ
データの詳細 完全で詳細なデータ 要約されたデータを保存可能

AWS では、一見無制限のストレージやコンピューティング性能へのアクセス、および収集、保存、クエリされるデータ量の増加と並行してシステムをスケールする機能など、オンデマンドコンピューティングに関する主な利点すべてを活用できます。支払いはプロビジョンしたリソースに対してのみです。さらに、AWS ではシームレスに統合された幅広いマネージドサービスが提供され、エンドツーエンドの分析、およびデータウェアハウジングソリューションをすばやくデプロイできます。

次の図は、エンドツーエンドの分析プロセスチェーンの主要な手順、および各ステップで利用可能な AWS のマネージドサービスを示しています。

AWS での分析パイプライン

Amazon Redshift は、高速かつ完全マネージド型でコスト効果の高いデータウェアハウスです。1 つのサービスで、ペタバイト規模のデータウェアハウジングとエクサバイト規模のデータレイク分析を合わせて提供します。

Amazon Redshift は従来のオンプレミスデータウェアハウスよりも、最大で 10 倍の速さを実現します。Redshift のペタバイトのデータと、Amazon S3 のエクサバイトの構造化データやオープンファイルフォーマット全体にクエリを実行して、独自の見識を得ることができます。データの移動や変換は必要ありません。

Redshift のコストは、従来のオンプレミスデータウェアハウスソリューションの 10 分の 1 です。コミットメントなしで 1 時間あたりわずか 0.25 USD の小規模から始めて、1 テラバイト (非圧縮) あたり年間 250 USD ~ 333 USD のペタバイトデータにスケールアウトできます。また、スキャンするデータ 10 ギガバイトあたりわずか 0.05 USD で、Amazon S3 データレイクに分析を拡張できます。詳細はこちら