跳至主要內容

什麼是資料庫分析

資料是企業內部決策的基礎,因此需要謹慎的管理、處理和分析。在資料操作不當的情況下,即使是最熟練的資料分析師也可能會做出錯誤的假設並制定遭到誤導的決策。

成熟的資料分析管道能夠讓組織準確識別趨勢、執行描述性分析、規範性分析和統計分析,以及導入機器學習和 AI 功能。

您需要根據現有的資料、目前的資料庫格式和其他所需的分析類型選擇資料庫分析系統。資料會以各種格式儲存在企業中,包括關聯式資料庫、非關聯式資料庫和其他檔案格式。關聯式和非關聯式資料庫內建基本分析支援,但單獨使用這些支援,並不足以在業務功能和來源中獲得更深入的見解。

資料分析師需要資料倉儲、資料湖和資料湖倉來進行不同來源的資料整合,進而為不同格式和不同功能資料挖掘和分析作業準備好資料。

我們會在指南其餘部分探索資料庫分析領域中的這些不同技術。

分析中主要使用哪些資料系統類型?

下列是可在分析中使用之不同系統類型的簡要概述

關聯式資料庫

關聯式資料庫是結構化資料的集合,並會將資料整理為包含資料列和資料欄的資料表。每個資料表都包含代表真實物件或概念的相關資料集合。

資料表中的每個資料列都代表單一記錄,例如客戶的詳細資料,包括姓名、電話號碼和地址。每個資料表都可以與一個或多個其他資料表相關。例如,客戶資料表可以與採購資料表相關,可讓每個採購項目連結至特定客戶。

所有關聯式資料庫管理系統都具有固定的結構描述 (如上所述),並支援結構化查詢語言 (SQL),可用於跨資料表和資料表內的資料查詢。

AWS 上的關聯式資料庫服務範例包括 Amazon Relational Database ServiceAmazon Aurora,這是適用於 PostgreSQL、MySQL 和 DSQL 的高效能、全域可擴展的關聯式資料庫解決方案。

非關聯式資料庫

非關聯式資料庫具有彈性的結構描述,而且因為其不支援透過 SQL 進行查詢,所以也稱為 NoSQL 資料庫。不同類型的非關聯式資料庫包括:鍵值資料庫、文件資料庫、寬欄型資料庫、圖形資料庫、記憶體資料庫和搜尋資料庫。

每種類型的 NoSQL 資料庫都有各自適用的特定使用案例。例如,文件資料庫適合內部內容管理系統,而寬欄型存放區非常適合來自 IoT 機群的時間序列資料。

下列是 AWS 上非關聯式資料庫服務的部分範例。

  • Amazon DynamoDB 是一種無伺服器、NoSQL、完全受管理的資料庫,具有低於 10 毫秒的效能,適用於鍵值資料庫和文件存放區。
  • Amazon DocumentDB (with MongoDB compatibility) 是一種全受管原生 JSON 文件資料庫服務。
  • Amazon Keyspaces (適用於 Apache Cassandra) 是一種可擴展、高可用性的受管 Apache Cassandra 相容寬欄型資料庫。
  • Amazon Neptune 是一種高效能、無伺服器的圖形資料庫服務,可提供卓越的分析、可擴展性和可用性。
  • Amazon ElastiCache 是一種完全受管記憶體快取服務,與 Valkey、Redis 和 Memcached 記憶體資料庫相容。
  • Amazon MemoryDB 是一種與 Valkey 和 Redis OSS 相容、持久的記憶體資料庫服務,可實現超快效能。

資料倉儲

資料倉儲是一種分析解決方案,可以大規模擴展關聯式資料庫的功能,並支援 SQL 查詢。資料倉儲用於儲存和分析大量資料庫之間的關聯式資料。倉儲解決方案可以在擷取、轉換、載入 (ETL) 流程中轉換非關聯式資料並將其標準化,以便為分析做好準備。

Amazon Redshift 是一種受管資料倉儲解決方案,可協助您輕鬆儲存資料並擴展資料分析工作負載。

資料湖

資料湖是一個集中式儲存庫,可讓您以任何規模存放您的所有結構化和非結構化資料。資料轉換可以在傳輸到資料湖之前或之後進行。資料湖需要適用於 ETL 和分析的其他服務;分析原始資料通常並非可行方案。

Amazon S3 是一種物件資料儲存,旨在從任何位址擷取任何數量的資料,並可作為資料湖使用。S3 可與 AWS Lake Formation 結合,以獲得資料存取權限並分享儲存的資料

資料湖倉

資料湖倉是資料倉儲和資料湖的結合。資料湖倉可以儲存結構化和非結構化資料,提供用於加入結構描述和結構的格式層,並且包括查詢引擎。因為資料湖倉能夠同時在所有資料上執行查詢,所以是現代企業資料分析中的必要層級。

Amazon SageMaker 資料湖倉會整合 Amazon S3 資料湖和Amazon Redshift 分析資料庫倉儲之間的資料。Amazon SageMaker 資料湖倉提供彈性,可讓您使用與所有 Apache Iceberg 相容的工具和引擎來就地存取和查詢資料。

其他類型

在整個企業的分析中,關聯式或非關聯式資料庫模型可能無法完美對應各種資料類型,例如原始檔案和資料表。這意味著資料會以不同的格式儲存。例如,半結構化串流資料可以儲存在 Apache Avro 檔案中,而 Amazon S3 可用於儲存任何類型的資料。

選取資料分析系統時,您可能需要能夠與資料庫搭配使用以分析這些檔案類型的功能。

如何在 AWS 上實作資料庫分析?

不同的資料庫、資料類型以及資料庫儲存與管理系統,都會以獨特的方式處理資料分析作業。對資料倉儲、資料湖和資料湖倉進行分析,需要不同的策略和技術。

使用 Amazon DataZone 編目、探索、共用和治理儲存在 AWS、內部部署和第三方來源的資料,從一開始就確保實作基礎資料治理。

Amazon Managed Workflows for Apache Airflow (MWAA) 能夠作為管道自動化工具,透過資料傳輸和轉換來幫助協調資料分析流程,並在倉儲、資料湖或資料湖倉中觸發分析工作流程。

步驟 1 - 將資料從不同來源集中到更大的系統

您可以採用多種方法來將資料從目前來源傳輸到資料倉儲、資料湖和資料湖倉。資料可能需要在儲存前經過轉換和清理。此外,您可能還需要考量其他要素,例如敏感的客戶資料類型、存取權限及部分資料的就地存取。

在進行 AWS 倉儲、資料湖或資料湖倉組態的前置準備時,傳輸資料的最簡單方法是先將資料移至 S3。

串流資料作業可能需要新服務,例如用於即時串流資料傳遞的 Amazon Data Firehose,或用於接收和彙集的 Amazon Kinesis Data Streams

步驟 2 - 轉換和標準化資料

若要分析資料,就需要轉換和標準化部分資料。

AWS Glue 可以探索並連線到超過 100 個不同的資料來源、在集中式資料型錄中管理您的資料,並且以視覺方式建立、執行與監控資料管道,將資料載入到您的資料湖、資料倉儲和資料湖倉。AWS Glue DataBrew 是一款視覺化資料準備工具,能讓資料分析師和資料科學家更輕鬆地清理和標準化資料。

Amazon EMR 為 Apache Spark、Trino、Apache Flink 和 Hive 巨量資料分析提供效能最佳化的執行時期,能夠簡化資料湖工作流程並減少處理時間。

Amazon SageMaker Data Wrangler 是為機器學習準備資料最快速、最輕鬆的方式。

步驟 3 - 結合資料分析

儲存、連接和轉換資料後,資料分析師會利用您的倉儲、資料湖或資料湖倉執行分析。您可以根據使用案例來運用多種資料分析技術。

查詢

Amazon Redshift 可為您的資料倉儲提供內建查詢功能。Amazon Athena 可協助您分析和查詢儲存在 Amazon S3 資料湖中的非結構化、半結構化和結構化資料。該服務針對執行即時資料分析和探索進行最佳化,可讓使用者以互動方式查詢和視覺化資料。Amazon SageMaker 資料湖倉也可提供內建的查詢功能。

商業智慧

Amazon QuickSight 提供大規模的整合式商業智慧 (BI) 資料分析,適用範圍涵蓋資料倉儲、資料湖和資料湖倉。資料視覺化是 Amazon QuickSight 中的關鍵服務。

機器學習

Amazon Redshift ML 可用於 Redshift 倉儲的機器學習分析。Amazon SageMaker 可在資料湖和資料湖倉中提供機器學習和其他分析功能。

在 Amazon SageMaker 資料湖倉上

您可以在 SageMaker 資料湖倉內使用與 Apache Iceberg 相容的所有工具,在單個資料副本上就地存取和查詢資料。您可以利用自己選擇的分析工具和引擎 (例如 SQL、Apache Spark、商業智慧 (BI) 和 AI/ML 工具),並搭配使用儲存在 Amazon S3 資料湖和 Amazon Redshift 倉儲中的資料。

串流資料

Amazon Kinesis 能夠透過安全又可擴展的方式,收集、處理和分析即時影片和資料串流。

AWS 如何協助滿足您的資料庫分析需求?

在現代企業環境中,SQL 查詢完全無法滿足分析資料庫的需求。透過利用資料倉儲、資料湖和資料湖倉,資料分析師可以發掘資料的價值,並藉由各種來源、類型和功能執行資料分析。

合適的資料庫分析架構可協助確保您的解決方案獲得擴展能力、可隨時執行,並且能夠與現在十分重要的 ML 服務和預測分析整合。立即在 AWS 上建立免費帳戶以開始使用。