メインコンテンツに移動

データ仮想化とは

データ仮想化は、基盤となるデータストレージからデータ操作を抽象化するプロセスです。現代の組織は、従来のテーブルからリアルタイムのメッセージやファイルまで、さまざまなシステムやプラットフォームにわたって複数の形式でデータを保存しています。このデータを物理的に単一の中央システムに移動することは、必ずしも現実的ではなく、費用対効果が高いとは限りません。

データ仮想化は、メタデータ、つまりデータに関するデータを使用して、データ操作用の仮想レイヤーを作成します。エンドユーザーは、基盤となる技術を理解していなくても、仮想レイヤー内で統合された方法でデータを読み取ったり変更したりできます。仮想レイヤーがエンドユーザーの代わりに、基盤となるストレージレイヤーとやり取りして、必要に応じてデータをプッシュまたは取得します。 

データ仮想化が重要な理由

今日の組織では、オンプレミスシステム、クラウドサービス、その他のサイロ化されたシステムのさまざまなデータソースにデータが分散していることがよくあります。物理的なデータマージの能力は、次の課題の制約を受けます。

  • 複数のプラットフォームにわたってソースデータを手動で管理するのは時間がかかり、エラーも発生しやすい。
  • データガバナンスが義務付けられているため、複数の独立したソースのアクセス制御が複雑になる可能性がある。
  • 新しいソースやユーザーが追加された場合、データソース間の直接接続を維持することが困難な場合がある。

他の従来のデータ統合方法では、データをデータウェアハウスまたはデータレイクに移動する必要があります。このアプローチでは一元管理が可能ですが、複数のコピーを同期して維持する必要があるため、リアルタイムでのレポート作成能力に影響する可能性があります。

データ仮想化システムには、こうした他のアプローチに比べていくつかの主な利点があります。

抽象化

クエリが実際のソースから抽象化されるため、ユーザーや開発者がその背後にある技術的な詳細をすべて理解しなくても、複雑なデータセットを扱うことができます。

ガバナンスの統合

データ仮想化はメタデータを使用して動作するため、仮想化レイヤー内で一元的なガバナンスを実装できます。また、すぐに利用でき、将来のプロジェクトで再利用できるデータモデルの構築と反復も簡単です。

リアルタイムアクセス

データ仮想化により、複数のソースに対してリアルタイムでクエリを実行できます。スケジュールされた同期を待つ必要はありません。ビジネスユーザーは、各システムに個別に接続する代わりに、1 つのアプリケーションを操作するだけで済みます。

信頼できる唯一の情報源

別のシステムとの同期遅延によりシステム内のデータが古くなって発生する重複や混乱を解消できます。また、一元化されたデータウェアハウスやデータレイクにデータをコピーしないことで、ストレージコストも削減できます。

データ仮想化のユースケース

仮想化は、リアルタイムのデータアクセスを容易にすることで、いくつかの重要な機能をサポートできます。

分析とビジネスインテリジェンス

内部報告や規制遵守などに関する分析イニシアチブでは、多くの場合、組織内の多くのソースからのデータを統合する必要があります。仮想化されたデータアクセスにより、アナリストや BI チームは、本番環境のデータソースに悪影響を及ぼすことなく、簡単にデータを探索し、クエリを絞り込むことができます。

クラウド移行サポート

大規模なシステムをクラウドに移行するのは、時間がかかり、エラーも多いプロセスです。データ仮想化は、効果的な移行計画に対する強力なツールとなります。チームは、稼働中のシステムを中断することなく、カットオーバーシナリオをテストし、データ統合プロセスを検証できます。

大規模システムのアップグレードの簡素化

エンタープライズリソースプランニング (ERP) システムのアップグレードなど、大規模プロジェクトのテスト環境を構築するには時間がかかり、複数のチーム間の広範な調整が必要になる可能性があります。データ仮想化テクノロジーを使用することで、チームは複雑なデータ構造を迅速に生成して効率的に作業できます。これにより、インフラストラクチャのコストを削減し、デプロイ時間を短縮できます。

本番システムのサポート

本番システムの複雑な問題をトラブルシューティングするには、完全なデータサービスをテスト用に再作成する必要がある場合があります。データ仮想化テクノロジーにより、IT チームはデータをコピーしなくても環境をすばやく構築してテストできます。これにより、修正を検証し、意図しない副作用を特定することができます。

DevOps ワークフロー

開発者とテスターは、リリースに向けてアプリケーションを準備する際に、完全な仮想データ環境を使用できます。大規模なデータセットを複製しなくても、ソフトウェアが現実世界でどのように動作するかをモデル化できます。

データ仮想化レイヤーの機能

データ仮想化ソフトウェアには、データ管理を簡素化するいくつかの重要な機能が備えられています。

セマンティックモデリング

「顧客」や「商品ラインナップ」などの重要なビジネスコンセプトは、複数のシステムに分散された仮想データで表現されている可能性があります。仮想化レイヤーを使用すると、データを使用して複数のソースにわたる重要なコンセプトをより簡単に定義できます。

ユニバーサル接続

仮想化レイヤーを介して組織内のデータソースにアクセスすることで、データサイロをより簡単に解消し、すべてのチームが統一されたデータセットにリアルタイムでアクセスできるようになります。

ハイパフォーマンスなクエリ

データ仮想化ソフトウェアは、スマートパフォーマンス手法を利用して、複雑なクエリを単一の効率的なステートメントに最適化できます。異なるシステムに対して重複したクエリを行うことはありません。

データカタログ

仮想化により、メタデータまたはデータに関する情報を同じシステム内に保存できます。このデータを使用して既存のデータセットに関する情報を追跡し、データの発見に役立つデータカタログを構築できます。

データ仮想化の仕組み

データ仮想化はデータ統合の一種です。データ仮想化サービスは、データを直接扱うのではなく、データの保存場所、分類方法、他のデータとの接続方法などのメタデータのみを対象としています。

ユーザークエリ

例えば、お客様のビジネスに顧客関係管理 (CRM) データベースと、商品を管理するための個別の在庫システムがあるとします。しかし、過去 2 か月間に「Smith」という名前の顧客から行われたすべての注文を検索したいとします。これは 2 つのシステムにまたがるリクエストです。クエリをデータ仮想化サービスに入力します。

データの統合

仮想化サービスはクエリをより小さなコンポーネントに分解します。サービスはメタデータを使用して、さまざまなソース内にあるクエリの各コンポーネントのデータの場所を識別します。CRM から顧客情報を取得し、在庫から注文情報を取得するためのサブクエリが生成されます。

データの提示

ソースがデータを返すと、データ仮想化サービスはそのデータをワーキングメモリに変換し、必要に応じてフォーマットと命名を調整します。メタデータによって特定された重複は除外されます。その後、変換が完了すると、サービスは統合された結果をアプリケーションに提供します。

クラウドにおけるデータ仮想化アプローチとは

クラウドにデータ仮想化を実装するには、カスタムビルドのソリューション、市販ツール、クラウドネイティブなソリューションの 3 つの幅広いアプローチがあります。

カスタムビルドのデータ仮想化

最初の選択肢は、クラウドインフラストラクチャを使用して独自のデータ仮想化ソリューションをカスタムビルドすることです。設計や機能をより細かく制御できますが、大幅な開発と保守も必要になります。

市販データ仮想化ツール

もう 1 つの選択肢は、ベンダーの組み込みデータ仮想化プラットフォームを使用することです。これらのツールには通常、多くのデータソースへの組み込みコネクタとパフォーマンスの最適化が備わっています。また、既存の企業メタデータ標準との統合に対応している場合もあります。

クラウドネイティブなデータ仮想化

このアプローチでは、Amazon Web Services (AWS) などのクラウドベンダーが提供するマネージドサービスを利用して、デプロイと継続的な運用を簡素化します。これにより、すでにクラウドで作業している組織や、クラウドに移行しようとしている組織が、広範な技術的専門知識を必要とせずにデータ仮想化を採用できます。

AWS でのデータ仮想化要件のサポート

AWS は、商用データ仮想化サービスで提供される機能の多くと連携するネイティブ機能を提供しています。これらのネイティブ機能は、データ仮想化のさまざまなユースケースをサポートできる可能性があります。

Amazon Redshift は最新のデータ分析を大規模に強化します。増大するデータがオペレーショナルデータストア、データレイク、ストリーミングサービス、またはサードパーティのデータセットに保存されているかどうかに関係なく、Amazon Redshift を使用すると、移動やコピーを最小限に抑えてデータに安全にアクセス、結合、共有できます。

Amazon Athena は、Amazon S3 に保存されているデータを直接処理するインタラクティブな分析サービスです。サーバーレスなため、セットアップや管理のためのインフラストラクチャがなく、即座にデータ分析を開始できます。

AWS Glue は、データの検出、準備、結合のプロセスを簡素化するサーバーレスのデータ統合サービスです。Amazon Athena と Amazon Redshift は、仮想化をサポートする中央メタデータリポジトリである AWS Glue データカタログとネイティブに統合されています。

AWS Lake Formation を使用すると、分析や機械学習 (ML) 用のデータを一元管理、保護、およびグローバルに共有することが容易になります。AWS Glue データカタログを使用してデータのセキュリティとガバナンスを一元化することで、使い慣れたデータベーススタイルの機能を使用して、メタデータとデータ権限を 1 か所で管理できます。また、きめ細かなデータアクセス制御も実現します。

今すぐ無料のアカウントを作成して、AWS でのデータ仮想化を開始しましょう。