メインコンテンツに移動

データの完全性とは

データの完全性では、データの完全性を維持し、データが正確で、エラーがなく、一貫性があり、ライフサイクル全体にわたって完全に機能するようにすることに重点が置かれます。1 つのデータストアでデータの完全性を維持する際は、アクセスリクエストの数、データ量、速度に関係なく、管理しやすいものでなければなりません。現代のクラウド環境では、分散したデータストアとサービス間で複雑で継続的なデータ移動が必要です。高スループットのオンライントランザクション処理 (OLTP) システムでは、システムの一貫性を維持するために厳格なデータの完全性チェックが必要です。データエンジニアは、統合、バックアップ、クラウド移行を含む、新規および既存のデータストアとプロセスでデータの完全性チェックを実施する必要があります。この記事では、クラウドにおけるデータの完全性管理の課題と解決策について取り上げます。

データの完全性とは、データのライフサイクルを通じてデータの正確性、一貫性、完全性を維持するプロセスです。これはデータ品質保証の重要な部分であり、組織のデータがトランザクション処理、ビジネスインテリジェンス、分析に関連性があり信頼できるものであるようにします。データの完全性の範囲には、機密情報を不正アクセスから保護しながらデータを検証するためのさまざまな方法やプロトコルが含まれます。

データの完全性が重要な理由 これにより、組織のデータは、財務活動やその他の事業活動の記録や意思決定の際に常に信頼できるものになります。データとその変換を処理するツールやロールに関係なく、データの完全性は不可欠です。

オンライントランザクション処理(OLTP)システムでは、データの完全性が不可欠です。データの完全性は、ビジネストランザクションの正確な処理、財務業務の一貫性を確保し、二重予約やトランザクションの損失などの問題を防ぐためです。データの完全性の欠如は、規制違反や顧客満足度の低下などの結果につながる可能性があります。

データの完全性の維持にはどのような課題がありますか?

組織内のデータの完全性を確保するには、人とテクノロジーに関連するデータ管理の課題に取り組む必要があります。

OLTP 環境

OLTP 環境におけるデータの完全性に関する最大の課題は、特に大量の処理において、データ整合性を保ちながら同時発生したトランザクションを管理することにあります。この課題では、厳密な原子性、一貫性、分離性、耐久性 (ACID) の遵守と性能要件とのバランスを取る必要があります。この場合、システムのリアルタイム処理機能を維持しながら、競合状態やデッドロックに遭遇することなく、複数のユーザーが同じデータを同時に変更できなければなりません。

ビジネスインテリジェンスと分析

ビジネスインテリジェンスと分析のユースケースでは、データソースとシステム間の統合が不十分だと、企業はデータアセットを統一した方法で正確に把握することができません。さらに、手作業によるデータ入力と収集に頼ると、入力ミス、省略、不一致が発生し、データの正確性が損なわれる可能性があります。

監査とデータ証跡

適切な監査証跡がないため、収集から削除までのデータ履歴を追跡することが困難になることがもう 1 つの課題です。組織は、不正なデータ変更に対する可視性を失うリスクがあります。レガシーシステムでは、古いファイル形式を使用したり、重要な検証機能が欠けたりして、データの完全性を保つことがさらに複雑になります。データをクラウドに移動することで、より一元化されたデータ品質メカニズムを実装できるようになり、データ整合性チェックに必要な時間と労力を削減できます。

データはクラウドでどのように保護されていますか?

データの完全性は、大きく分けて 2 つのタイプに分けられます。

物理的な完全性

物理的な完全性プロセスは、自然災害、停電、ハードウェア障害、または物理ストレージデバイスに影響を与えるその他の要因による損傷や破損からデータを保護します。クラウドでは、物理的な完全性はクラウドプロバイダーが自動的に管理します。これは、責任共有モデルに基づくクラウドプロバイダーの責任です。

例えば、AWS データセンターは、データを保存する物理デバイスに 4 層のデータセキュリティインフラストラクチャを提供します。データセキュリティ機能には以下が含まれます。

  • 多要素認証と電子制御によりサーバールームへのアクセスが保護された厳格なアクセス制御。
  • 不正データ削除の自動検出などの侵入防止対策。
  • 設置、プロビジョニング、除去、廃止までの安全なストレージデバイス管理。
  • 機器の検査を含む、2,600 を超えるセキュリティ要件に関する厳格な第三者監査。

論理的な整合性

論理的な整合性プロセスにより、データが保存されているストレージシステムの基本ルールを確実に満たすことができます。論理的な完全性は、さらに 4 つのサブタイプに分類できます。

  • ドメイン整合性は、値を特定の範囲、形式、または事前定義されたセット内に制限することでデータの正確性を保証します (データタイプやその他の同様のデータ制約を使用するなどして)。
  • エンティティ整合性により、プライマリキーなどのメカニズムを通じて個々のデータレコードが一意に識別され、キーフィールドでの重複や NULL 値が防止されます。
  • 参照整合性は、外部キー制約を適用してデータレコードが分離されないようにすることで、テーブル間の一貫した関係を維持します。
  • ユーザー定義整合性は、カスタム検証ロジックやアプリケーションレベルの実施など、標準的な制約を超えたビジネス固有のルールを実装します。

クラウドユーザーは、論理的な整合性の制約を実装し、データ品質を確保する責任があります。これは、責任共有モデルに基づくお客様の責任です。

ただし、AWS データサービスには、チェックサムアルゴリズム、データ品質監視ツール、バックアップおよびデータ同期中の自動データの完全性チェックなど、データの完全性チェックをサポートするさまざまなメカニズムが用意されています。

マネージドサービスでは、データの完全性のために自動的かつ設定可能なガードレールを提供できます。OLTP システムおよびデータベース内では、論理的な整合性プロセスにより、各トランザクションの原始性、一貫性、分離性、耐久性を維持できます。

クラウドでデータの完全性を確保するには?

AWS クラウドで論理的な整合性を持たせるには、以下の対策を検討してください。

オブジェクトデータの完全性の実装

ほとんどのクラウドデータオペレーションは、あらゆるデータタイプをオブジェクトとして保存できる Amazon S3 バケットから始まります。Amazon S3 バケット、データベース、その他のクラウドサービスまたはオンプレミスストレージ間でデータを頻繁に移動することがあります。Amazon S3 には、アップロード、ダウンロード、コピー中にデータの完全性が失われるリスクを軽減するチェックサムメカニズムが組み込まれています。

チェックサムは、特定のアルゴリズムを使用してデータから生成される一意の固定長値です。独自のデジタルフィンガープリントが作成されるため、システムはデータの破損や意図しない変更を検出できます。オブジェクトをコピーする際、Amazon S3 はソースオブジェクトのチェックサムを計算し、コピー先のオブジェクトに適用します。不一致の場合にアラートを発します。Amazon S3 は、マルチパートアップロードのフルオブジェクトチェックサムと複合チェックサムの両方をサポートしています。フルオブジェクトチェックサムはファイル全体をカバーし、複合チェックサムは個々のパーツレベルのチェックサムを集約します。

以下で説明するチェックサム機能をご利用ください。

アップロード

Amazon S3 は、CRC-64/NVME、CRC-32、CRC-32C、SHA-1、SHA-256 など、複数のセキュアハッシュアルゴリズム (SHA) と巡回冗長検査 (CRC) アルゴリズムをサポートしています。AWS マネジメントコンソールを使用している場合は、アップロード時にチェックサムアルゴリズムを選択します。チェックサムが指定されていない場合、Amazon S3 はデフォルトで CRC-64/NVME を使用します。

ダウンロード

オブジェクトをダウンロードするときは、保存されているチェックサム値をリクエストしてデータの完全性を検証します。アップロードが完了しているか、まだ進行中かに応じて、GetObject、HeadObject、または ListParts オペレーションを使用してチェックサム値を取得します。

コピー

CopyObject オペレーションを使用してオブジェクトをコピーすると、Amazon S3 はオブジェクト全体のチェックサムを直接生成します。オブジェクトが最初にマルチパートアップロードとしてアップロードされた場合、データが変更されていなくても、コピー時にチェックサム値が変更されます。

データパイプライン整合性の実装

もう 1 つの一般的なユースケースは、クラウドデータレイク、ウェアハウス、またはマネージドデータベースサービスにデータを移動することです。このようなデータパイプラインでデータの完全性チェックを設定すると、エラーが発生しやすく、面倒で時間がかかります。監視コードと、データ品質が低下したときにデータ利用者に警告するデータ品質ルールを手動で作成する必要があります。

移行中

AWS Database Migration Service (DMS) は、複数の保護手段と検証メカニズムが組み込まれており、これにより AWS クラウドデータベースへの移行中のデータの完全性を保護します。DMS は自動検証を実行してソースデータとターゲットデータを比較し、データの再同期を通じて不一致を特定して解決します。

DMS には、中断が発生した場合に前回確認された正常な状態から移行を再開できるチェックポイント機能とリカバリ機能があり、移行の進行状況を追跡するための包括的な監視およびログ機能も備わっています。さらに、DMS は転送中のデータの SSL 暗号化と AWS セキュリティサービスとの統合を通じてデータセキュリティを保証します。

データベースインフラストラクチャ

AWS データベースは、データの耐久性と一貫性を確保する自動バックアップやマルチ AZ 配置など、複数の包括的なメカニズムと機能によってデータの完全性を保護します。これらのデータベースは、制約を組み込むことで参照整合性を実施し、ACIDコンプライアンスを維持してトランザクションの一貫性を保ち、ポイントインタイムリカバリ機能を備えています。Amazon Relational Database Service (RDS) や Amazon Aurora などのマネージドデータベースサービスでは、データの完全性のために具体的なコントロールを行えます。例えば、Aurora では OLTP データベースにさまざまなトランザクション分離レベルを設定できます。

保護を強化するために、複数のリージョンにデプロイすることでディザスタリカバリをサポートしています。これにより、AWSデータベースは地理的に分散したリージョン間でデータをレプリケートできます。Amazon CloudWatch との統合により、オペレーションが影響を受ける前に潜在的なデータの完全性の問題を特定して解決できます。

データ統合

AWS Glue は、AWS クラウドでデータを準備および結合するためのサーバーレスデータ統合サービスです。AWS Glue Data Quality 機能により、手動のデータ検証作業が数日から数時間に短縮されます。自動的に品質ルールを推奨し、統計を計算し、監視し、不正確または不完全なデータを検出したときに警告します。データの完全性ルールを定義するために使用するドメイン固有の言語であるデータ品質定義言語 (DQDL) と連携します。

OLTP システムからデータを収集して分析に使用する場合、AWS Glue パイプラインを使用してデータベースから分析サービスにデータをプッシュできます。

さらに、モニタリングやアラート用にメトリクスを Amazon CloudWatch に発行できます。

データバックアップの完全性の実装

大規模なエンタープライズプロジェクトでは、さまざまなチームがデータのバックアップを取り、さまざまな場所から Amazon S3 ストアにアクセスする場合があります。このような分散型データバックアップ業務では、データガバナンスが課題になります。 AWS データベースにはバックアップ機能が組み込まれています。

AWS Backup は、Amazon Simple Storage Service (S3)、Amazon Elastic Compute Cloud (EC2)、Amazon FSx、VMware のハイブリッドワークロードなど、AWS サービス全体のデータ保護を一元化および自動化するフルマネージドサービスです。データ保護ポリシーを一元的にデプロイして、AWS リソースとアカウント全体のバックアップアクティビティを制御、管理、設定できます。

AWS Backup は、転送、保存、処理までのデータライフサイクル全体にわたってデータの完全性を維持するように設計されています。保存されているすべてのデータに、データタイプに関係なく厳格なセキュリティ対策を適用し、不正なデータアクセスに対する高度な保護を保証します。データの分類、保存場所、セキュリティポリシーを完全にコントロールできるため、必要に応じてデータを管理、アーカイブ、保護できます。

AWS Backup は他の AWS サービスと連携して、複数のメカニズムを使用してデータの完全性を保ちます。これには以下が含まれます。

  • 破損を防ぐための継続的なチェックサム検証。
  • 転送中および保管中のデータの完全性を検証するための内部チェックサム。
  • ディスク障害発生時の自動冗長復元。

データは複数の物理的な場所に冗長的に保存され、ネットワークレベルのチェックはデータ転送中の破損の検出にも役立ちます。

AWS からはデータの完全性を維持するためにどのようなサポートを受けられますか?

データの完全性はまた、分析への信頼を高め、コンプライアンスを支援し、ライフサイクルを通じてデータが価値あるものであり続けるようにします。ただし、オンプレミスデプロイの場合、データの完全性を確保することは困難で費用がかかり、手作業や分散作業、冗長作業のために時間がかかる可能性があります。

クラウドテクノロジーはプロセスを一元化し、面倒な作業のほとんどを肩代わりします。いくつかの物理的および論理的な整合性チェックがデフォルトで組み込まれています。オートメーションメカニズムは、データの完全性を実現するために必要なソフトウェアルールを自己生成します。データエンジニアは、設定を構成するか、自動メカニズムの成果を確認するだけで済みます。データの完全性により、OLTP システムは、信頼性の高い事業運営と業務に不可欠な大量のリアルタイムトランザクションを処理しながら、正確性を完璧に維持できます。

今すぐ無料のクラウドアカウントを作成して始めましょう。