メインコンテンツに移動

データ管理とは何ですか?

データ管理は、組織のデータを収集、保存、保護、および使用するプロセスです。組織はデータを使用して、トランザクション処理や顧客とのやり取りなどの運用プロセスをサポートします。また、ビジネスインテリジェンス、分析、AI、リアルタイムの意思決定のためにデータを統合する必要もあります。データ管理には、法令および規制の範囲内でデータの使いやすさを改善するすべてのポリシー、ツール、および手順が含まれます。

データ管理が重要なのはなぜですか?

データは現代の組織にとって貴重なリソースです。大量のさまざまなデータタイプにアクセスする必要があるため、組織はデータストレージと管理インフラストラクチャに多額の投資をしています。組織は、データ管理システムを使用して業務上のビジネスプロセスを自動化し、データを分析してビジネス上の意思決定に役立てています。データ管理のその他の具体的な利点は次のとおりです。

運用効率

データ管理システムは、組織が大量のトランザクションや運用データを効率的に処理するのに役立ちます。これにより、取引が正確かつ一貫して記録され、財務記録、在庫の更新、顧客口座、その他の運用ワークフローにおけるエラーが最小限に抑えられます。これらのシステムは、トランザクション処理以外にも、日常業務を自動化し、信頼性の高い記録管理を可能にし、リアルタイムの活動に必要な一貫性を提供します。データ管理システムは、このような効率上の利点を通じて、組織がシームレスな顧客体験を提供し、信頼を維持し、日々のプロセスを効率的かつスケーラブルに保つのに役立ちます。

収益と利益を増大させる

データ分析により、ビジネスのあらゆる側面に対するより深いインサイトが提供されます。これらのインサイトに基づいて事業運営を最適化し、より多くの情報に基づいた意思決定を促進して収益を増やし、コストを削減するためのインサイトを得ることができます。データ分析によって意思決定の将来の影響を予測し、意思決定と事業計画を改善することもできます。したがって、組織はデータ管理手法を改善することにより、大幅に収益を成長させ、利益を得ることができます。

データの不整合を減らす

トランザクション処理におけるデータの不整合は、記録の重複、不正確な口座残高、在庫の不一致などのエラーにつながり、業務の中断、顧客の信頼の低下、是正費用の増加につながります。データ分析の矛盾は、データサイロが原因で生じる可能性があります。

データサイロとは、1 つの部門またはグループのみがアクセスできる組織内の生データの集まりのことをいいます。データサイロは不整合を生み出し、これにより、データ分析結果の信頼性が低下します。データ管理ソリューションは、データを統合し、一元化されたデータビューを作成して、意思決定と部門間のコラボレーションを改善します。

規制コンプライアンスを遵守する

一般データ保護規則 (GDPR) やカリフォルニア消費者プライバシー法 (CCPA) などの法律は、顧客のデータを保護することを目的としています。これらのデータ保護法には、以下の義務が含まれています。

  • データ収集への同意
  • データの場所と利用に関する厳格な管理
  • リクエストに応じた安全なデータストレージと削除

したがって、組織は、データを保護しながらデータの正確性を維持するために、正確で機密性の高いデータ管理システムを必要としています。

データアーキテクチャとデータモデリングとは?

データアーキテクチャとデータモデリングは、データ管理戦略を成功させるための基礎です。

データアーキテクチャ

データアーキテクチャは、組織のデータ収集、管理、および使用を記述および管理する包括的なフレームワークです。データ管理計画には、データ管理戦略の実装に最適な運用データベース、データレイク、データウェアハウス、サーバーなどの技術的な詳細が含まれます。

データモデリング

データモデリングは、異なるタイプのデータ間のワークフローと関係を視覚化する概念的かつ論理的なデータモデルを作成するプロセスです。データモデリングは通常、データを概念的に表現することから始まり、選択したテクノロジーのコンテキストで再び表現します。データプロフェッショナルは、データの設計段階でいくつかの異なる種類のデータモデルを作成します。

データガバナンスはデータ管理とどのように関係していますか?

データ管理の実践は、データガバナンスに加えて、データアクセスを制御するために、高品質データの収集と配布にも及びます。

データガバナンスには、データセキュリティ、完全性、および責任あるデータユーティリティを管理するために組織が実装するポリシーと手順が含まれます。データ管理戦略を定義し、誰がどのデータにアクセスできるかを決定します。データガバナンスポリシーは、チームや個人がデータにアクセスして使用する方法についての説明責任も確立します。データガバナンス機能には通常、次が含まれます。

データプロファイリング

データプロファイリングは、データを分析してその構造、品質、特性を判断する診断プロセスです。これは、既存のデータセットを理解し、使用前にリファクタリングが必要かどうかを判断するための第一歩です。

データリネージュ

データリネージュは、組織全体のデータフローを追跡します。タイムスタンプ付きのデータリネージュは、データの出所、使用方法、変換された時期と方法を判断するために使用されます。このデータ管理プロセスは、監査プロセスにおいて特に重要です。

データカタログ

データカタログは、組織のデータ資産と関連するメタデータのコレクションです。すべてのデータ関連情報を中央カタログに保存することで、組織内の主要なデータレジストリになります。ユーザーは、データカタログにすべてのデータ資産に関する最新情報が含まれていることを期待できます。

データセキュリティとアクセスコントロール

データガバナンスは、データへの不正アクセスを防ぎ、データを破損から保護するのに役立ちます。データセキュリティとアクセス制御は、次のようなデータ保護のあらゆる側面を網羅しています。

  • データが偶発的に移動または削除されないようにする
  • ネットワークアクセスを保護して、ネットワーク攻撃のリスクを軽減する
  • データを格納する物理データセンターがセキュリティ要件を満たしていることを検証する
  • 従業員が個人のデバイスからデータにアクセスする場合でもデータを安全に保つ
  • ユーザー認証、承認、およびデータへのアクセス許可の設定と適用
  • 保存されたデータが、データの保存場所である国の法令に準拠しているように支援する
  • 機密データ用のコントロールレイヤーを追加する

データコンプライアンス

データコンプライアンスポリシーは、規制上の罰金や措置のリスクを軽減します。GDPR や CCPA などのコンプライアンス法を遵守することは業務に不可欠です。

コンプライアンス活動は、データモデリング、ソフトウェア制御、および従業員トレーニングに重点を置いているため、法律の遵守があらゆるレベルで行われます。例えば、組織がデータシステムを改善するために、外部の開発チームと協力するとします。データガバナンスマネージャーは、テストの目的で使用するためにデータを外部チームに渡す前に、すべての個人データが削除されていることを検証します。

データのライフサイクル管理

データのライフサイクル管理とは、ライフサイクル全体にわたってデータを管理するプロセスを指します。 

例:

  • データは取り込み時および定期的に検証する必要がある場合
  • 監査目的でデータを特定の期間保持する必要がある場合
  • データが不要になったら消去する必要がある場合

データ品質管理

データのユーザーは、各ユースケースにおいて、データが十分に信頼でき、一貫していることを期待しています。

データ品質管理者は、組織のデータ品質を測定し、改善します。既存のデータと新しいデータの両方をレビューし、基準を満たしているかを検証します。また、低品質のデータがシステムに含まれるのを阻止するデータ管理プロセスを設定する場合もあります。データ品質基準は、通常、次の事項を測定します。

  • 重要な情報が欠落していないか? あるいは、データは完全か? (例: 顧客が主要な連絡先情報を省略していないか)
  • データは基本的なデータチェックルールを満たしているか? (電話番号は特定の桁数でなければならないなど)
  • どの程度頻繁に同じデータがシステムで表示されるか? (例: 同じ顧客の重複データ入力)
  • データは正確か? (例: 顧客が間違ったメールアドレスを入力している)
  • データ品質はシステム全体で一貫しているか? (例: あるデータセットでは生年月日が dd/mm/yyyy 形式だが、別のデータセットでは mm/dd/yyyy 形式となっている)

メディア配信

データ分散のためのエンドポイント

ほとんどの組織では、データを必要とするさまざまなエンドポイントに (またはその近くに) そのデータを配布する必要があります。これらには、運用システム、データレイクデータウェアハウスが含まれます。ネットワークレイテンシーを低く保つため、データ分散が必要です。運用上の用途のためにデータが必要であるにもかかわらず、ネットワークレイテンシーが高いと、そのデータをすぐに配信できない場合があります。データのコピーをローカルデータベースに格納することで、ネットワークレイテンシーの問題を解決できます。

データ分散は、データ統合のためにも必要です。データウェアハウスとデータレイクは、さまざまなソースからのデータを取り込み、情報の統合ビューを表示します。データウェアハウスは分析と意思決定に使用され、データレイクはさまざまなユースケースのデータを抽出できる統合ハブとして機能すると同時に、そこに保存されているデータを直接分析する機能も増えています。

データレプリケーションメカニズムと整合性への影響

データ分散メカニズムはデータ整合性に影響を与える可能性があり、これはデータ管理において重要な考慮事項です。

強整合性は、データの同期レプリケーションによって実現されます。このアプローチでは、データ値が変更されると、すべてのアプリケーションとユーザーに、変更されたデータの値を表示できます。データの新しい値がまだレプリケートされていない場合、すべてのコピーが更新されるまで、データへのアクセスはブロックされます。同期レプリケーションは、パフォーマンスやデータへのアクセスよりも整合性を優先します。同期レプリケーションは、財務データのためにしばしば使用されます。

結果整合性は、データの非同期レプリケーションによって実現されます。データが変更されると、コピーは最終的に更新されますが (通常は数秒以内)、古くなったコピーへのアクセスはブロックされません。多くのユースケースにおいて、これは問題にはなりません。例えば、ソーシャルメディアの投稿、「いいね」、コメントには強整合性は必要ありません。別の例として、顧客があるアプリケーションで電話番号を変更した場合、この変更は非同期でカスケードできます。

ストリーミングとバッチ更新の比較

データストリームは、データ変更を発生時にカスケードします。これは、ほぼリアルタイムのデータへのアクセスが必要な場合に推奨されるアプローチです。データは、変更されるとすぐに抽出および変換され、宛先に配信されます。

バッチ更新は、配信前にデータをバッチ処理する必要がある場合により適しています。この一例として、データを要約したり、統計分析を実行したりして、その結果のみを提供することが挙げられます。バッチ更新では、すべてのデータが特定の時点で抽出された場合に、データの特定の時点の内的整合性を維持することもできます。抽出、変換、ロード (ETL または ELT) プロセスを通じたバッチ更新は、通常、データレイク、データウェアハウジング、および分析に使用されます。

マスターデータ管理

マスターデータ管理は、重要なビジネスデータの一貫性と同期を管理するプロセスです。マスターデータの例には、顧客データ、パートナーデータ、製品データが含まれます。これらの基本データは主に永続的であり、頻繁には変更されません。このようなデータが使用されている例としては、顧客関係管理 (CRM) やエンタープライズリソースプランニング (ERP) ソフトウェアなどがあります。

更新時の同期やデータ統合など、マスターデータ管理は、システム間でこのデータが正確であることを保証するために不可欠です。

ビッグデータ管理とは?

ビッグデータとは、組織が短期間で高速に収集する大量のデータです。ソーシャルメディア上の動画ニュースフィードやスマートセンサーからのデータストリームは、ビッグデータの例です。運用の規模、多様性、複雑さが、ビッグデータ管理における課題となっています。例えば、ビッグデータシステムには次のようなデータが格納されます。

  • 表示には表形式が適している構造化データ
  • 文書、画像、動画などの非構造化データ
  • 前述の 2 つのタイプを組み合わせた半構造化データ

ビッグデータ管理ツールは、分析のためにデータを処理し、準備する必要があります。ビッグデータに必要なツールと手法は、通常、データ統合、データストレージ、およびデータ分析の機能を実行します。

クラウドデータ管理システムとは?

クラウドデータ管理 (CDM) は、データが保存中、処理中、転送中の企業データをクラウドで管理することです。従来のデータ管理と同じ方法の多くが、クラウドでのデータ管理にも適用されます。

クラウド環境は標準のオンプレミス環境とは異なるため、データの処理方法は少し異なります。クラウドストレージ、クラウドコンピューティング、クラウドネットワーキングは、最新のクラウドデータ管理サービスと連携して、データ管理の期待に応えます。

クラウドストレージ

クラウドサービスプロバイダーは、運用データベース、データレイク、クラウドデータウェアハウスなど、複数の製品やサービスにまたがるデータストレージを提供しています。これらのデータストレージソリューションはクラウドネイティブで、クラウドインスタンス上で実行され、あらゆるユースケースに適合する仮想ストレージ構成を提供します。クラウドストレージインスタンスは、データ標準を満たすように設定する必要があります。

クラウドコンピューティング

クラウドコンピューティングインスタンスは、保存されたクラウドデータを処理するように設計されています。これらのコンピュートインスタンスには、トランザクション処理、プロセスオートメーション、ビジネスインテリジェンス、分析、機械学習、AI など、それぞれわずかに異なる種類のワークロードに対応するさまざまな構成が用意されています。クラウドコンピューティングインスタンスは、クラウドデータ管理に関する内部ルールに合わせて設定する必要があります。

クラウドネットワーキング

仮想プライベートクラウド (VPC) や仮想プライベートネットワーク (VPN) などのクラウドネットワーキングソリューションは、ソフトウェアベースのネットワークを提供します。クラウドネットワーキングは、リソースをセグメント化し、ワークロードを相互に安全に分離し、不正アクセスからの保護を強化することで分離を実現します。これらのネットワークを介して転送中のデータは、製品コントロールとネットワークセキュリティ製品を組み合わせて管理する必要があります。

クラウドデータ管理ツール

各クラウドプロバイダーは、環境全体にわたるクラウドデータ管理のためのさまざまなソリューションを提供しています。これらのデータ管理機能には次のものが含まれます。

  • データレイクやデータウェアハウスなどのデータ統合サービス
  • コンプライアンス管理などのデータセキュリティサービス
  • 有効で高品質なデータをチェックするデータ品質サービス
  • AI と機械学習を使用して機密データを識別するデータインベントリソリューション

各クラウドデータ管理ソリューションは、クラウドで提供される基本的なデータストレージ、処理、転送サービスを補完するように設計されています。

責任共有モデル

セキュリティとコンプライアンスは、クラウドサービスプロバイダーとお客様の間で共有される責任です。AWS では、これを責任共有モデルと呼んでいます。 

この共有モデルでは、ホストオペレーティングシステムと仮想化レイヤーから、サービスが運用されている施設の物理的なセキュリティに至るまでの要素をクラウドプロバイダーが運用、管理、および制御するので、お客様の運用上の負担が軽減されます。クラウドデータ管理プロバイダーと顧客は、このモデルに基づくデータ管理とセキュリティの義務を理解する必要があります。

たとえば、クラウドプロバイダーは、顧客のクラウドインスタンスをサポートする基盤となるインフラストラクチャを保護するための措置を講じる必要があります。クラウドプロバイダーは、ハードウェアにパッチが適用され、期待どおりに動作していることを確認します。その後、お客様はインスタンスで実行されているオペレーティングシステムが最新であることを確認する必要があります。

お客様は、ゾーン間のインスタンスレプリケーションとデータバックアップが適切に行われていることを確認する必要があります。これにより、データ整合性が保たれ、ディザスタリカバリが必要なイベントが発生した場合にデータを取得できるようになります。

データ管理にはどのような課題がありますか?

一般的なデータ管理上の課題を次に示します。

スケールとパフォーマンス

組織は、規模が大きくても効率的に機能するデータ管理ソフトウェアを必要としています。データが指数関数的に増加する中にあっても、ピーク応答時間を維持するために、データ管理インフラストラクチャを継続的にモニタリングおよび再設定する必要があります。あるいは、データ量とワークロードの変化に応じて容量を自動的に調整するサーバーレスデータ管理ソフトウェアを使用する必要があります。

要件の変更

コンプライアンス規制は複雑で、時間の経過に伴って変化します。同様に、顧客の要件とビジネスニーズも急速に変化します。組織は、より多くのデータ管理プラットフォームの中から選択できるようになってきていますが、IT に関する最大限の俊敏性、法令の遵守、およびコストの抑制を維持するために、どのインフラストラクチャを使用するかに関する決定を常に評価する必要があります。

従業員の研修

どのような組織であっても、データ管理プロセスを開始するのは困難である場合があります。膨大な量のデータに圧倒される可能性があるほか、部門間のサイロが存在する場合もあります。新しいデータ管理戦略を計画し、従業員に新しいシステムやプロセスを受け入れてもらうには、時間と労力がかかります。

データ管理のベストプラクティスはどのようになっていますか?

データ管理のベストプラクティスは、成功につながるデータ戦略の基礎を形成します。強固なデータ基盤の構築に役立つ一般的なデータ管理原則を以下に示します。

チームコラボレーション

ビジネスユーザーと技術チームは、組織のデータ要件を確実に満たすために協力する必要があります。

オートメーション

成功を収めるデータ管理戦略には、ほとんどのデータ処理と準備タスクにオートメーションが組み込まれています。データ変換タスクを手動で実行するのは煩雑です。また、システムでエラーを引き起こします。週次のバッチジョブを実行するなど、限られた数の手動タスクであっても、システムのボトルネックを引き起こす可能性があります。データ管理ソフトウェアは、より高速で効率的なスケーリングをサポートできます。

クラウドコンピューティング

企業は、幅広い機能を提供する最新のデータ管理ソリューションを必要としています。クラウドソリューションは、パフォーマンスを犠牲にすることなく、データ管理のあらゆる側面を大規模に管理できます。例えば、AWS は、データベース、データレイク、分析、データアクセシビリティ、データガバナンス、セキュリティなど、単一のアカウント内から利用できる幅広い機能を提供します。

AWS はデータ管理をどのようにサポートできますか?

AWS は、最新のクラウドデータ管理戦略を構築するために使用できるグローバルなデータ管理プラットフォームです。AWS データベースは、ビジネスとお客様のために価値を高める生成 AI ソリューションとデータ駆動型のアプリケーションを強化するための、ハイパフォーマンスかつ安全で信頼性に優れた基盤を提供します。AWS のハイパフォーマンスデータベースは、あらゆるワークロードとユースケースをサポートします。これには、他のデータベースよりもスループットが 3~5 倍速いリレーショナルデータベース、レイテンシーがマイクロ秒単位の目的別データベース、およびスループットが最も速く、リコール率が最も高い組み込みベクトルデータベースが含まれます。

AWS は、オンデマンドで即座にスケーリングすることでキャパシティを管理する必要性をなくすサーバーレスオプションを提供します。AWS のデータベースは、保管中および転送中の暗号化、ネットワークの分離、認証、異常の解決、コンプライアンス標準の厳格な遵守により、比類のないセキュリティを実現します。これらのデータベースではデータが AWS リージョン内の複数のアベイラビリティーゾーンに自動的にレプリケートされるため、優れた信頼性を提供します。アプリケーションのデータモデル向けに最適化された 15 を超えるデータベースエンジンを持つ AWS のフルマネージドデータベースは、データベース管理タスクの差別化につながらない面倒な作業を排除します。

AWS は、あらゆる分析ワークロードに対応する包括的な機能セットを提供します。データ処理や SQL 分析から、ストリーミング、検索、ビジネスインテリジェンスまで、AWS はガバナンスが組み込まれた比類のない料金パフォーマンスとスケーラビリティを提供します。特定のワークロード向けに最適化された目的別サービスを選択するか、または Amazon SageMaker を利用してデータと AI ワークフローを合理化および管理します。データジャーニーを開始しようとしている場合でも、統合エクスペリエンスをお求めの場合でも、AWS は、データを利用してビジネスを革新するのに役立つ適切な分析機能をお客様に提供します。

これらは、最新のクラウドデータインフラストラクチャの構築に役立つサービスの一部です。

Amazon DataZone は、AWS、オンプレミス、サードパーティーのソース全体に保存されているデータのカタログ化、検出、共有、管理をより迅速かつ簡単にするデータ管理サービスです。

AWS Glue は、データ統合をよりシンプル、迅速、低コストにするサーバーレスサービスです。100 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理するとともに、データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、データウェアハウス、レイクハウスにロードできます。

Amazon Simple Storage Service (Amazon S3) は、業界随一のスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。あらゆる規模と業界の数百万におよぶお客様が、データレイク、クラウドネイティブなアプリケーション、モバイルアプリケーションといった、ほぼすべてのユースケースのために、さまざまな量のデータを保存、管理、分析、保護しています。

AWS Lake Formation を使用すると、分析や機械学習のためのデータを一元管理、保護、および共有できます。AWS Lake Formation を使用すると、きめ細かいデータアクセス権限を一元的に管理およびスケールし、組織内外で自信を持ってデータを共有できます。

Amazon Relational Database Service (Amazon RDS) は、総保有コストを考慮して最適化された、管理しやすいリレーショナルデータベースです。

Amazon Virtual Private Cloud (Amazon VPC) は、論理的に分離された仮想ネットワークで AWS リソースを起動できるように支援します。

今すぐ AWS アカウントを作成して、AWS でのクラウドデータ管理ソリューションの構築を開始しましょう。