AWS でのモダンデータアーキテクチャ
モダンデータアーキテクチャ – すべての仕組み
モダンデータアーキテクチャは、あらゆるケースに利用できる分析アプローチを採用することは最終的に妥協につながる、という考え方を踏まえたものとなっています。これは、単にデータレイクをデータウェアハウスと統合するというよりは、データレイク、データウェアハウス、および専用ストアを統合して、統一的なガバナンスと簡単なデータ移動を可能にすることを意味しています。AWS でモダンデータアーキテクチャを利用すると、お客様は、スケーラブルなデータレイクを迅速に構築し、専用データサービスを幅広く深く利用し、統一されたデータアクセス、セキュリティ、ガバナンスによってコンプライアンスを確保し、パフォーマンスを損なうことなく低コストでシステムをスケールし、組織の境界を越えてデータを容易に共有することで、大規模な意思決定をスピードと俊敏性をもって行うことができます。

モダンデータアーキテクチャが必要な理由
データ量は前例のない速度で増加しており、テラバイト規模からペタバイト規模、時にはエクサバイト規模へと爆発的に増加しています。従来のオンプレミスのデータ分析アプローチでは、十分にスケールできず、費用がかかりすぎるため、これらのデータ量を処理することはできません。多くの企業は、さまざまなサイロからすべてのデータを取得し、そのすべてのデータを 1 つの場所 (多くの場合、データレイクと呼ばれます) に集約して、直接そのデータに基づいて分析と ML を実行しています。また、これらの企業は、構造化データと非構造化データの両方を分析して迅速にインサイトを得るために、専用のデータストアに他のデータを保存している場合もあります。データには重力があるため、このデータの移動は「内部から外部へ」、「外部から内部へ」、「周辺」、または「全体での共有」になります。
-
内部から外部へ
-
外部から内部へ
-
周辺
-
全体的な共有
-
データ重力
-
内部から外部へ
-
内部から外部へのデータ移動
データレイクにデータを保存し、そのデータの一部を専用のデータストアに移動して、追加の機械学習や分析を行うお客様。
例: ウェブアプリケーションからのクリックストリームデータを直接データレイクに集め、そのデータの一部をデータウェアハウスに移動して日次レポートを作成できます。当社では、この概念を内部から外部へのデータ移動と考えています。
-
外部から内部へ
-
外部から内部へのデータ移動
お客様は、データウェアハウスやデータベースなどの専用データストアにデータを保存し、そのデータをデータレイクに移動して、そのデータの分析を実行しています。
例: 特定の地域での製品の販売に関するクエリ結果をデータウェアハウスからデータレイクにコピーし、ML を使用してより大きなデータセットに対して製品レコメンデーションアルゴリズムを実行します。
-
周辺
-
周辺のデータ移動
データレイク、データウェアハウス、および専用データストアをシームレスに統合します。
例: データベースに保存されている製品カタログデータを検索サービスにコピーして、そのサービスが製品カタログを簡単に調べ、データベースから検索クエリを容易にオフロードできるようにすることが可能です。
-
全体的な共有
-
データの動きを全体的に共有
お客様は、モダンデータアーキテクチャを使用して、論理的または物理的なガバナンスの境界を越えたガバナンスとデータ共有を促進し、ビジネスのラインに沿ったデータドメインを作成しています。
-
データ重力
-
データ重力
これらのデータレイクや専用ストアのデータが増え続けると、データには重力があるため、これらすべてのデータを移動することが難しくなります。分析とインサイトの取得を可能にするために、適切なコントロールを使用して、必要な場所に簡単にデータを移動できるようにすることも同様に重要です。
モダンデータアーキテクチャの柱
組織は、さまざまなサイロからデータを取得し、そのすべてのデータを 1 つの場所に集約して、そのデータに基づいて分析と機械学習を実行しています。そこから最大の価値を引き出すには、データレイクと専用のデータストア間でデータを簡単に移動できるモダンデータアーキテクチャを活用する必要があります。この最新のアーキテクチャの設計には、次が必要です。
-
スケーラブルなデータレイク
数万におよぶお客様が、AWS 上でデータレイクを実行しています。
今日のデータレイクの設定や管理には、時間のかかる手作業のタスクが数多く必要となります。AWS Lake Formation により、そういった設定タスクが自動化できます。お客様は数か月ではなく数日の内に、データレイクを安全にビルドすることができます。Amazon S3 は、データレイク用としてストレージを配置するには最良の場所です。他に類を見ないその耐久性はイレブンナインで表されるもので、また可用性も 99.99% を確保します。オブジェクトレベルの監査ログインやアクセスコントロールを備えた、セキュリティ、コンプライアンス、監査のための最高の機能もあります。最高の柔軟性があるストレージは 5 つの階層で構成されています。さらに、料金は 1 月で 1 TB ごとに 1 USD からという、最低レベルのコストでご使用いただけます。
-
専用分析サービス
AWS では、お客様固有の分析ユースケースに最適化できる、最も広範で奥の深い専用分析サービスのポートフォリオをご用意しています。
これらのサービスは、クラスで最高の性能を実現するために設計されています。したがって、これをご使用になるお客様は、パフォーマンス、スケール、そしてコストの面で、一切の妥協をする必要はありません。例えば、Amazon Redshift では、他のクラウドデータウェアハウスと比較した場合、3 倍高速で動作し、費用は最小でも 50% 低く抑えられます。Spark on Amazon EMR では、標準的な Apache Spark 3.0 の 1.7 倍という高速で動作し、ペタバイト規模の分析を、従来のオンプレミスソリューションのコストに対し半分以下で実行できます。
-
統合されたデータアクセス
データレイクと専用データストア内でデータ量が増加していくと、しばしば、1 つのデータストアから別の場所へと、データの一部を簡単に移動するための手段が必要になることがあります。
AWS では、複数のデータストアとデータレイクの間で、データを統合、移動、複製するための、簡単な方法が用意されています。例えば AWS Glue では、データ統合のための包括的な機能がご利用になれます。この機能では、分析、機械学習、アプリケーション開発などのために、簡単にデータを発見、準備、統合できるようにします。また、Amazon Redshift を使用すれば、S3 データレイクの中のデータを、簡単にクエリできます。最も必要とされている場所への大規模なデータの移動が、これほど容易に行える分析プロバイダーは他に存在しません。
-
統合されたガバナンス
現代の分析アーキテクチャにおいて、最も重要な要素の 1 つは、データへのアクセスを認証、管理、監査するための能力を、ユーザーに与えるということです。
これは簡単なことではありません。なぜなら、組織内のすべてのデータストアについて、セキュリティやアクセスコントロール、そして証跡の監査などを管理することは、複雑で時間を要し、さらにエラーの原因ともなる作業だからです。AWS は、データレイクと専用データストアにまたがるすべてのデータへのアクセスを一箇所で管理できるガバナンス機能を提供します。AWS Lake Formation では、セキュリティ、ガバナンス、監査のポリシーを一元的に定義、および管理することができ、その結果、エンタープライズ全体のデータ共有のための統一的なアクセスコントロールが可能になります。
-
高いパフォーマンスと低コスト
AWS は、すべての分析サービスにおいて、最低のコストで最良のパフォーマンスをご提供することにコミットしています。また、サービスにおけるコストパフォーマンスを改善するためのイノベーションにも、継続的に取り組んでいます。
分析サービスにおける業界でもトップレベルのコストパフォーマンスに加え、S3 Intelligent Tiering をご利用のお客様は、データレイクへのデータの保存において、最大 70% のコストダウンが図れます。また Amazon EC2 では、業界トップクラスとなる 200 を超えるインスタンスタイプ数の中から選択が可能です。ネットワークの帯域幅は最大 100 Gbps で、インスタンスはオンデマンド、リザーブド、スポットの各種から選択が可能です。
他のどこよりも多くのお客様がモダンデータアーキテクチャを AWS で活用しています
-
BMW Group
-
イノベーションを加速し、データの使用を大規模に民主化するために、BMW Group は Amazon S3 を利用したデータレイクにオンプレミスのデータレイクを移行しました。BMW は現在、数百万台の車両からの TB 規模のテレメトリデータを毎日処理し、お客様に影響が及ぶ前に問題を解決しています。
-
Nielsen
-
世界的な測定およびデータ分析企業である Nielsen は、最新のクラウドテクノロジーを利用することで、毎日取り込み、処理し、クライアントに報告できるデータの量を大幅に増やしました。測定数は、1 日あたり 4 万世帯から、3000 万世帯を超えるまでになりました。
-
Engie
-
ENGIE’s は、フランスで最大の公益事業会社の 1 つであり、70 か国に 16 万人の従業員と 40 の事業部門を擁しています。Common Data Hub の約 100 TB のデータレイクは、AWS のサービスを使用して、データサイエンス、マーケティング、およびオペレーションのビジネスニーズに対応しています。
パートナー
当社のパートナーが AWS でモダンデータアーキテクチャを構築するのをどのようにサポートしているかをご覧ください。

Cloudera
AWS で Cloudera Enterprise を実行することにより、最新のデータ処理と分析の土台として機能させることができるデータ管理プラットフォームが IT ユーザーとビジネスユーザーに提供されます。
/Informatica_icon_solutionspace.b413aef928d0d5cb73d65ffe147b99059a187b46.png)
Informatica Cloud
Informatica Cloud は、AWS のデータサービスへの最適化された統合を実現し、100 を超えるアプリケーションへのネイティブ接続を備えています。

Dataguise
Dataguise はセキュアなビジネスの遂行におけるリーダーで、エンタープライズの機密データがどこに保管されているか、またはそれを利用する必要があるのは誰かにかかわらず、機密データを検知し、保護するデータセントリックなセキュリティソリューションを提供しています。

Alluxio Data Orchestration
Alluxio Data Orchestration を利用すると、EMR や S3 などの主要な AWS のサービスを分析と AI ワークロードに活用できます。
開始方法

AWS Data-Driven Everything
AWS Data-Driven EVERYTHING (D2E) プログラムでは、AWS はお客様と提携して、より速く、より正確に、そしてはるかに野心的な範囲で、お客様自身のデータフライホイールをジャンプスタートさせます。
詳細はこちら »

AWS データラボ
AWS データラボは、お客様と AWS 技術リソースの間で高速な共同エンジニアリングエンゲージメントを提供します。この実践的な取り組みでは、データと分析を最新化するイニシアチブを加速していきます。

AWS 分析とビッグデータリファレンスアーキテクチャ
AWS 上でのクラウドデータ分析、データウェアハウジング、データ管理のためのアーキテクチャベストプラクティスを学びます。