データベース分析とは?
データベース分析とは
データは企業内の意思決定を支えるものであるため、慎重な管理、取り扱い、分析が必要です。最も熟練したデータアナリストであっても、データの操作が不適切だと、誤った仮定や間違った決定につながる可能性があります。
成熟したデータ分析パイプラインがあれば、組織は傾向を正確に特定し、記述的分析、処方的分析、統計分析を実行できるだけでなく、機械学習や AI 機能を導入することもできます。
どのデータベース分析システムを選択するかは、既存のデータ、現在のデータベース形式、その他必要となる分析タイプによって異なります。データは、リレーショナルデータベース、非リレーショナルデータベース、その他のファイル形式など、さまざまな形式で企業に保存されます。リレーショナルデータベースと非リレーショナルデータベースには基本分析のサポートが組み込まれていますが、これらだけではビジネス機能やソース全体にわたるより深いインサイトを引き出すには不十分です。
データアナリストは、さまざまなソースからのデータを統合し、フォーマットや機能を超えたデータマイニングと分析に対応できるようにするために、データウェアハウス、データレイク、レイクハウスを必要としています。
このガイドの残りの部分では、データベース分析分野におけるこれらすべてのさまざまなテクノロジーについて説明します。
分析で使用されるデータシステムの主なタイプは何ですか?
分析で利用できるさまざまなタイプのシステムの概要を以下に示します。
リレーショナルデータベース
リレーショナルデータベースは、行と列を含むテーブルに配置された構造化データのコレクションです。各テーブルには、現実世界のオブジェクトや概念を表す関連データのコレクションが含まれています。
テーブルの各行は、名前、電話番号、住所を含む顧客の詳細などの 1 つのレコードを表します。各テーブルは、1 つ以上の他のテーブルに関連付けることができます。例えば、顧客テーブルを購入テーブルに関連付けると、各購入を特定の顧客にリンクできます。
すべてのリレーショナルデータベース管理システムには、前述のように固定スキーマがあり、テーブル間およびテーブル内のデータクエリ用の構造化クエリ言語 (SQL) をサポートしています。
AWS のリレーショナルデータベースサービスの例としては、Amazon Relational Database Service や Amazon Aurora などがあります。Amazon Aurora は、PostgreSQL、MySQL、DSQL 向けの高性能でグローバルにスケーラブルなリレーショナルデータベースソリューションです。
非リレーショナルデータベース
非リレーショナルデータベースには柔軟なスキーマがあり、SQL 経由のクエリをサポートしていないため、NoSQL データベースとも呼ばれます。非リレーショナルデータベースには、key-value データベース、ドキュメントデータベース、ワイドカラムデータベース、グラフデータベース、インメモリデータベース、検索データベースなどがあります。
NoSQL データベースの各タイプは、特定のユースケースに適しています。例えば、ドキュメントデータベースは社内のコンテンツ管理システムに適しており、ワイドカラムストアは IoT フリートの時系列データに適しています。
AWS の非リレーショナルデータベースサービスの例を以下に示します。
- Amazon DynamoDB は、1 桁ミリ秒単位のパフォーマンスを実現するサーバーレスの NoSQL フルマネージド型データベースで、key-value データベースとドキュメントストアに適しています。
- Amazon DocumentDB (MongoDB 互換) はフルマネージド型のネイティブ JSON ドキュメントデータベースサービスです。
- Amazon Keyspaces (Apache Cassandra 向け) は、スケーラブルで可用性の高い、Apache Cassandra 互換のワイドカラムデータベース向けのマネージドサービスです。
- Amazon Neptune は、優れた分析、スケーラビリティ、可用性を実現する高性能のサーバーレスグラフデータベースサービスです。
- Amazon ElastiCache は、Valkey、Redis、および Memcached のインメモリデータベースと互換性のある、フルマネージド型のインメモリキャッシュサービスです。
- Amazon MemoryDB は、Valkey および Redis OSS と互換性があり、高い耐久性を備えたインメモリデータベースサービスで、超高速なパフォーマンスを実現します。
データウェアハウス
データウェアハウスは、リレーショナルデータベースの機能を大規模に拡張し、SQL クエリをサポートする分析ソリューションです。データウェアハウスは、多数のデータベースにわたるリレーショナルデータの保存と分析に使用されます。ウェアハウスソリューションは、抽出、変換、読み込み (ETL) プロセス中に非リレーショナルデータを変換し、分析できるように正規化できます。
Amazon Redshift は、データの保存とデータ分析ワークロードのスケーリングを容易にするマネージド型データウェアハウスソリューションです。
データレイク
データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データの変換は、データレイクへの転送前または転送後でも実行できます。データレイクでは、ETL と分析を行うための追加サービスが必要です。通常、未加工データを分析することは選択肢になりません。
Amazon S3 は、どこからでも任意の量のデータを取得できるように設計されたオブジェクトデータストレージであり、データレイクとして機能します。S3 を AWS Lake Formation と組み合わせて、データへのアクセス許可の付与や保存されたデータの共有を行うことができます
データレイクハウス
データレイクハウスは、データウェアハウスとデータレイクを組み合わせたものです。データレイクハウスは、構造化データと非構造化データを保存でき、スキーマと構造を追加するためのフォーマットレイヤーを提供し、クエリエンジンを備えています。データレイクハウスは、すべてのデータに対して同時にクエリを実行できるため、現代のエンタープライズデータ分析に必要なレイヤーです。
Amazon SageMaker Lakehouse は、Amazon S3 データレイクと Amazon Redshift 分析データベースウェアハウス全体のデータを統合します。Amazon Sagemaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、インプレースでデータにアクセスしてクエリする柔軟性が得られます。
その他の種類
企業全体の分析では、未加工ファイルやテーブルなど、さまざまなデータタイプがリレーショナルまたは非リレーショナルデータベースモデルにうまく適合しない場合があります。これは、それらがさまざまな形式で保存されていることを意味します。例えば、半構造化ストリーミングデータを Apache Avro ファイルに保存でき、Amazon S3 を使用してあらゆるタイプのデータを保存できます。
データ分析システムを選択する場合、これらのファイルタイプをデータベースと組み合わせて分析できる必要があるでしょう。
AWS でのデータベース分析の実装方法を教えてください。
さまざまなデータベース、データタイプ、データベースストレージおよび管理システムは、それぞれ独自の方法でデータ分析を行っています。データウェアハウス、データレイク、レイクハウスで分析を実行するには、さまざまな戦略とテクノロジーが必要です。
Amazon DataZone を使用して、AWS、オンプレミス、およびサードパーティのソース全体で保存されているデータをカタログ化、発見、共有、管理することで、最初から基本的なデータガバナンスを確保できます。
Amazon Managed Workflow for Apache Airflow (MWAA) は、パイプライン自動化ツールとしてのデータ転送と変換を通じてデータ分析プロセスを調整するのに役立ちます。また、ウェアハウス、レイク、レイクハウスで分析ワークフローをトリガーすることもできます。
ステップ 1 – さまざまなソースからのデータをより大規模なシステムに一元化する
現在のソースからデータウェアハウス、データレイク、データレイクハウスにデータを転送するには、さまざまな方法があります。データを保存する前に、データを変換してクレンジングする必要がある場合があります。機密性の高い顧客データタイプ、アクセス許可、一部のデータのインプレースアクセスなど、他の考慮事項があるかもしれません。
AWS ウェアハウス、レイク、またはレイクハウスの設定に備えてデータを転送する最も簡単な方法は、最初にデータを S3 に移動することです。
- AWS Database Migration Service は、データベースワークロードを AWS インフラストラクチャに移行します。AWS Schema Conversion Tool は、既存のデータベーススキーマを AWS がサポートするスキーマに変換できます。
- AWS Snowball では、デバイスベースの出荷と返却で大量のデータの転送が行えます。
- AWS Transfer Family と AWS DataSync は、ネットワークベースの代替的なデータ転送方法を提供します。
ストリーミングデータには、リアルタイムのストリーミングデータ配信のための Amazon Data Firehose や、取り込みと集計のための Amazon Kinesis Data Streams などの新しいサービスが必要になる場合があります。
ステップ 2 – データを変換して正規化する
データを分析するには、一部のデータには変換と正規化が必要です。
AWS Glue は 100 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理するとともに、データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、ウェアハウス、レイクハウスにロードします。AWS Glue DataBrew はビジュアルデータ準備ツールです。これを使用すると、データアナリストやデータサイエンティストはデータをより簡単にクリーンアップおよび正規化できます。
Amazon EMR は、Apache Spark、Trino、Apache Flink、Hive のビッグデータ分析向けにパフォーマンスが最適化されたランタイムを備えているため、データレイクのワークフローを簡素化し、処理時間を短縮できます。
Amazon SageMaker Data Wrangler は、機械学習用のデータを準備するための最も迅速かつ簡単な方法です。
ステップ 3 – 複合的なデータ分析
データが保存、接続、変換されると、データアナリストはデータウェアハウス、レイク、レイクハウスを利用して分析を行います。ユースケースに応じて、複数のデータ分析手法があります。
クエリ実行
Amazon Redshift には、データウェアハウス用のクエリ機能が組み込まれています。Amazon Athena は、Amazon S3 データレイクに保存されている非構造化データ、半構造化データ、構造化データの分析とクエリに役立ちます。リアルタイムのデータ分析と探索を実行するように最適化されているため、ユーザーはインタラクティブにデータをクエリして視覚化できます。Amazon SageMaker Lakehouse には組み込みのクエリ機能も用意されています。
ビジネスインテリジェンス
Amazon QuickSight では、データウェアハウス、データレイク、レイクハウスにまたがる大規模な統合ビジネスインテリジェンス (BI) データ分析を行えます。データの可視化は Amazon QuickSight の主要なサービスです。
機械学習
Amazon Redshift ML は、Redshift ウェアハウスの機械学習分析に使用できます。Amazon SageMaker を使うと、データレイクとレイクハウスで機械学習やその他の分析を行えます。
Amazon SageMaker Lakehouse について
SageMaker Lakehouse では、データの単一のコピーで Apache Iceberg 互換のすべてのツールを使用して、インプレースでデータにアクセスおよびクエリできます。SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/ML ツールなど、お好みの分析ツールとエンジンを利用して、Amazon S3 データレイクと Amazon Redshift データウェアハウスにわたって保存されているデータを連携させることができます。
ストリーミングデータ
Amazon Kinesis は、安全でスケーラブルな方法で動画やデータストリームをリアルタイムで収集、処理、分析できます。
AWS はデータベース分析のニーズをどのようにサポートできますか?
現代のエンタープライズ環境では、データベースの分析には SQL クエリだけでは不十分です。データウェアハウス、データレイク、レイクハウスを活用することで、データアナリストはデータの価値を引き出し、さまざまなソース、タイプ、機能にわたってデータ分析を実行できます。
適切なデータベース分析アーキテクチャは、ソリューションのスケーラビリティを確保し、実行の準備を整え、今や必須の機械学習サービスや予測分析と統合できるようにします。AWS で今すぐ無料のアカウントを作成して始めましょう。