資料倉儲、資料湖和資料市集之間有什麼區別?


資料倉儲、資料湖和資料市集之間有什麼差別?

資料倉儲、資料湖和資料市集是不同的雲端儲存解決方案。資料倉儲以結構化格式來存放資料。其為針對分析和商業智慧的預先處理資料的中央儲存庫。資料市集是專門服務特定業務單位 (公司的金融、行銷或銷售部門等) 的資料倉儲。另一方面,資料湖是用於原始資料和非結構化資料的中央儲存庫。您可以先儲存資料,稍後再處理。

資料倉儲、資料市集和資料湖之間的相似之處

今天的組織能夠存取日益增加的資料量。然而,他們必須對原始資料進行分類、處理、篩選和分析,才能獲得實際收益。同時,他們還必須遵循嚴格的資料保護和安全實務,以確保合規性。例如,以下是組織必須遵循的實務:

  • 從應用程式、供應商、物聯網 (IoT) 感應器和其他第三方等不同的來源收集資料。
  • 將資料處理成一致、可信任且實用的格式。例如,組織可處理資料,以確保系統中的所有日期都採用通用格式或彙總每日報告。
  • 藉由為機器學習軟體格式化 XML 檔案,或為人類產生報告來準備資料。

組織使用各種工具和解決方案,來實現其資料分析結果。資料倉儲、資料市集和資料湖都是有助於存放資料的解決方案。

閱讀有關 XML 的更多內容 »

以雲端為基礎的資料倉儲、資料湖和資料市集的優勢

這三種儲存解決方案均可協助您提高資料的可用性、可靠性和安全性。以下是如何使用其的一些範例:

  • 安全地存放您的業務資料以進行分析
  • 根據需要存放無限量的資料
  • 透過整合多個業務程序的資料來打破孤島
  • 分析歷史資料或舊式資料庫
  • 進行即時和批次資料分析

此外,這三種解決方案都極具成本效益,您只需為使用的儲存空間付費。您可以存放所有資料,對其進行模式和趨勢分析,並使用這些資訊來最佳化您的業務營運。

主要差異:資料倉儲與資料市集

資料倉儲是一種關聯式資料庫,用於存放交易系統和業務功能應用程式中的資料。倉儲中的所有資料均已結構化或預先在資料表中進行建模。資料結構和結構模式旨在最佳化快速 SQL 查詢。資料市集是同一技術的不同行銷術語。它也是關聯式資料庫,但實際使用與資料倉儲有很大區別。下面列出了主要區別點。

閱讀有關 SQL 的更多內容 »

資料來源

資料倉儲具有多個來源,包括內部和外部。您可以隨時隨地擷取資料,將其轉換為結構化格式,然後將其載入您的倉儲。資料市集的資料來源較少,而且規模往往較小。

關注

資料倉儲通常會存放多個業務部門的資料。他們集中整合整個組織的資料,以進行綜合分析。資料市集專注於單一主題,本質上更加分散。他們經常篩選和彙總另一個現有資料倉儲中的資訊。

使用率

多個使用者和專案需要存放在資料倉儲中的資料。因此,倉儲通常具有更長的使用壽命,並且本質上更複雜。另一方面,資料市集可能以專案為中心,且用途有限。團隊更偏好從企業資料倉儲建立資料市集,並在使用案例完成後將其終止。

設計方法

資料科學家在設計資料倉儲時使用自上而下的方法。他們首先規劃整體架構,並解決出現的挑戰。然而,藉助資料市集,資料工程師已經知道值、資料類型和外部資料來源等詳細資訊。他們能夠從一開始就規劃實作,並採用自下而上的方法來設計資料市集。

 

特性 資料倉儲 資料市集
範圍

集中,將多個主題領域整合在一起

分散,特定主題領域

使用者

整個組織

單一社群或部門

資料來源

眾多來源

單一或少數來源,或資料倉儲已收集的部分資料

大小

大型,可以是數百 GB 到 PB

小型,通常最多數十 GB

設計

從上到下

從下到上

資料詳細資訊

完整詳細的資料

可能有摘要資料

 

進一步了解有關資料倉儲的資訊

進一步了解有關資料市集的資訊

主要差異:資料倉儲與資料湖

資料倉儲和資料湖是兩種相關但根本不同的技術。資料倉儲存放結構化資料,而資料湖則是一個集中式儲存庫,可讓您存放任意規模的任何資料。相較於資料倉儲,資料湖可提供更多儲存選項,具有更複雜且不同的使用案例。下面列出了主要區別點。

資料來源

資料湖和資料倉儲都可以有無限的資料來源。然而,資料倉儲要求您在儲存資料之前設計結構描述。您只能將結構化資料載入系統。相反,資料湖沒有這樣的需求。其可存放非結構化和半結構化資料,例如 Web 伺服器日誌、點擊流、社交媒體和感應器資料。

預先處理

資料倉儲通常需要在儲存前進行預先處理。擷取、轉換、載入 (ETL) 工具用於預先清除、篩選和建置資料集。相比之下,資料湖則可保存任何資料。您可以靈活地選擇是否要執行預先處理。組織通常會使用擷取、載入、轉換 (ELT) 工具。他們先將資料載入資料湖,僅在需要時才進行轉換。

資料品質

資料倉儲往往更可靠,因為您可以預先執行處理。可以提前完成重複資料刪除、排序、彙總、驗證等多項功能,以確保資料的準確性。如果沒有提前進行檢查,重複或錯誤及未經驗證的資料可能最終會進入資料湖。

效能

資料倉儲旨在實現最快的查詢效能。業務使用者更偏好資料倉儲,這樣他們就能更有效地產生報告。相比之下,資料湖架構將儲存資料量和成本優先於效能。您能夠以更低的成本獲得更高的儲存資料量,並且仍然以合理的速度存取資料。

 

特性 資料倉儲 資料湖
資料

來自交易處理系統、操作資料庫和企業營運應用程式的關聯式資料

所有資料,包括結構化、半結構化和非結構化資料

結構描述

通常在資料倉庫實作之前設計,但也可以在分析時寫入

(schema-on-write 或 schema-on-read)

在分析時寫入 (schema-on-read)

價格/效能

使用本機儲存獲得最快的查詢結果

使用低成本儲存以及運算和儲存分開,可加速取得查詢結果

資料品質

高度專業的資料,可做為事實根據

不一定專業的各種資料 (即原始資料)

使用者

商業分析師、資料科學家和資料開發人員

商業分析師 (使用專業數據)、資料科學家、資料開發人員、資料工程師和資料架構師

分析

批次報告、BI 和視覺化

機器學習、探索性分析、資料發現、串流、營運分析、大數據和分析

  進一步了解有關資料倉儲的資訊 進一步了解資料湖

何時使用資料湖、資料倉儲與資料市集?

多數大型組織在其儲存基礎設施中會結合使用資料湖、倉儲和資料市集。通常,所有資料都會內嵌至資料湖,然後載入不同的倉儲和市集,以用於各種使用案例。技術決策取決於如下所述各種因素。 

靈活性

一般來說,資料湖能夠以更低的成本提供更大的靈活性。不同的團隊可使用其選擇的分析工具和框架,來存取相同的資料。您可以節省時間,因為無須定義資料結構、機構模式和轉換。

資料類型

如果您想要存放客戶和業務程序資料等關聯式資料,資料倉儲會是更好的選擇。如果您有大量關聯式資料,則您的團隊可能會考慮針對特定的業務需求建立一些資料市集。例如,會計部門可能會建立一個資料市集,來維護資產負債表並準備客戶帳戶報表,而行銷部門可能會建立另一個資料市集來最佳化廣告活動。

成本與資料量

資料倉儲可有效地處理數百 PB 的資料。資料湖以相對較低的成本容納更大的資料量,尤其是對於大量影像和影片。然而,並非每個組織都需要這種級別的規模。 

AWS 如何協助滿足您的資料儲存需求?

AWS 提供最廣泛的分析服務選擇,可滿足您的所有資料分析需求。我們讓各種規模的產業和組織,能夠利用資料來重塑其業務。下面是如何使用 AWS 的一些範例:

  • 使用 Amazon Redshift 來滿足您的資料倉儲和資料市集需求。在操作資料庫、資料湖、資料倉儲和數千個第三方資料集中,對複雜的擴展資料執行即時與預測性分析,以取得整合式洞察。您可以輕鬆地自動建立、訓練和部署機器學習模型。
  • 使用 AWS Lake Formation,在幾天內即可建置、管理和保護資料湖。從您所有的資料來源快速匯入資料,然後在集中式資料目錄中加以說明及管理。
  • 使用 Amazon S3,針對大數據分析、人工智慧、機器學習和高效能運算應用程式建置自訂資料湖。

立即建立免費帳戶,開始在 AWS 上進行資料儲存。

與 AWS 搭配使用的後續步驟

進一步了解資料庫服務
開始使用資料倉儲進行建置

了解如何開始使用 AWS 上的資料倉儲

進一步了解 
註冊免費帳戶
開始使用資料市集進行建置

了解如何開始使用 AWS 上的資料市集

進一步了解 
開始在主控台進行建置
開始使用資料湖進行建置

了解如何開始使用 AWS 上的資料湖

進一步了解