資料倉儲概念

什麼是資料倉儲?

資料倉儲是資訊的中央儲存庫,這些資訊經過分析後可協助您做出更明智的決策。資料通常會定期從交易處理系統、關聯式資料庫和其他來源流入資料倉儲。商業分析師、資料工程師、資料科學家和決策者可透過商業智慧 (BI) 工具、SQL 用戶端和其他分析應用程式存取資料。

資料和分析已成為企業保持競爭力不可或缺的一部分。企業使用者依賴報告、儀表板和分析工具,從資料擷取深入洞見、監控商業效能和支援決策。資料倉儲為這些報告、儀表板和分析工具提供支援,透過有效率地存放資料以最大程度地減少資料的輸入和輸出 (I/O),並快速地將查詢結果同時交付給成千上萬的使用者。

資料倉儲如何設計?

資料倉儲架構由層組成。最上層是前端用戶端,可透過報告、分析和資料採集工具顯示結果。中間層由分析引擎組成,可用來存取和分析資料。架構的最底層是資料庫伺服器,資料在該處載入和存放。資料以兩種不同類型的方式存放:1) 經常存取的資料存放在非常快速的儲存體 (如 SSD 驅動程式);2) 不常存取的資料存放在實惠的物件存放區中,如 Amazon S3。資料倉儲將自動確保將經常存取的資料移至「快速」儲存體中,從而最佳化查詢速度。

資料倉儲如何運作?

資料倉儲可能包含多個資料庫。在每個資料庫中,資料被整理成資料表和資料欄。在各欄中,您可以定義資料的描述,例如整數、資料欄位或字串。資料表可以在結構描述內進行整理,您可以將其視為資料夾。導入資料時,會將資料存放在結構描述所描述的各種表格中。查詢工具使用結構描述決定要存取和分析的資料表。

使用資料倉儲有哪些優點?

資料倉儲的優點包括:

  • 做出明智的決策
  • 整合眾多來源的資料
  • 歷史資料分析
  • 高資料品質、一致性和準確性
  • 將分析處理從交易式資料庫分開,以提升這兩個系統的效能

資料倉儲、資料庫和資料湖如何協同工作?

通常,企業使用資料庫、資料湖和資料倉儲組合來存放和分析資料。Amazon Redshift 的資料湖架構可輕鬆實現這種整合。

隨著資料量和種類的增加,遵循一種或多種常見模式來處理資料庫、資料湖和資料倉儲中的資料非常有優勢:

將資料放入資料庫或資料湖,準備資料,將選取的資料移入資料倉儲,然後執行報告

上圖:將資料放入資料庫或資料湖,準備資料,將選取的資料移入資料倉儲,然後執行報告。

將資料放入資料倉儲,分析資料,然後共用資料以便與其他 AWS Analytics 產品一起使用

上圖:將資料放入資料倉儲,分析資料,然後共用資料以與其他分析和機器學習服務一起使用。

資料倉儲專為資料分析所設計,可讀取大量的資料以了解資料的關係和趨勢。資料庫可用來擷取和存放資料,像是錄製交易的詳細資訊。

與資料倉儲不同,資料湖是所有資料的中央儲存庫,包括結構化、半結構化和非結構化資料。資料倉儲要求以表格格式整理資料,這是結構描述發揮作用之處。需要表格格式才能使用 SQL 查詢資料。但是,並非所有應用程式都要求資料採用表格格式。某些應用程式,例如大數據分析、全文搜尋和機器學習,即使資料是「半結構化」或完全非結構化也可以存取。

資料倉儲與資料湖的比較

特性 資料倉儲 資料湖
資料

來自交易處理系統、操作資料庫和企業營運應用程式的關聯式資料

所有資料,包括結構化、半結構化和非結構化資料

結構描述

通常在資料倉庫實作之前設計,但也可以在分析時寫入

(schema-on-write 或 schema-on-read)

在分析時寫入 (schema-on-read)

價格/效能

使用本機儲存獲得最快的查詢結果

使用低成本儲存以及運算和儲存分開,可加速取得查詢結果

資料品質

高度專業的資料,可做為事實根據

不一定專業的各種資料 (即原始資料)

使用者

商業分析師、資料科學家和資料開發人員

商業分析師 (使用專業數據)、資料科學家、資料開發人員、資料工程師和資料架構師

分析

批次報告、BI 和視覺化

機器學習、探索性分析、資料發現、串流、營運分析、大數據和分析

資料倉儲與資料庫的比較

特性 資料倉儲 交易式資料庫

適用的工作負載

分析、報告、大數據

交易處理
資料來源 從眾多來源收集資料並進行標準化

從單一來源依原狀擷取資料,像是交易處理系統

資料擷取

大量寫入操作通常會依預先決定的批次排程進行

已進行優化,可在新資料可用時持續寫入操作,以大幅提升交易輸送量

資料標準化

非標準化結構描述,例如 Star 結構描述或 Snowflake 結構描述

高度標準化,靜態結構描述

資料儲存

最佳化以簡化存取程序,並使用單欄式儲存獲得高速查詢效能

最佳化高輸送量寫入操作到單一列導向實體區塊

資料存取

最佳化以最小化 I/O 和最大化資料輸送量

大量小型讀取操作

資料市集與資料倉儲相比如何?

資料市集是專門服務特定團隊或業務單位 (金融、行銷或銷售等) 的資料倉儲。它較小、較專門且可能含有資料摘要,非常適合服務其使用者社群。資料市集也可能是資料倉儲的一部分。

資料倉儲與資料市集的比較

特性 資料倉儲 資料市集
範圍

集中,將多個主題領域整合在一起

分散,特定主題領域

使用者

整個組織

單一社群或部門

資料來源

眾多來源

單一或少數來源,或資料倉儲已收集的部分資料

大小

大型,可以是數百 GB 到 PB

小型,通常最多數十 GB

設計

從上到下

從下到上

資料詳細資訊

完整詳細的資料

可能有摘要資料

如何在 AWS 上部署資料倉儲?

AWS 可讓您充分利用與隨需運算相關的所有核心優勢︰存取看似無限制的儲存和運算容量,隨著收集、存放和查詢的資料量增加而平行擴展系統,以及僅支付您佈建的資源費用。AWS 提供可彼此無縫整合的各種受管服務,讓您快速地部署端對端分析和資料倉儲解決方案。

下圖顯示了端對端分析程序 (也稱為堆疊) 的關鍵步驟。AWS 在每個步驟都提供各種受管服務

AWS 在分析程序的每個步驟提供各種產品與服務

上圖:AWS 在分析程序的每個步驟提供各種產品與服務。

Amazon Redshift 是我們快速、全受管且經濟高效的資料倉儲服務。它在一項服務中即可為您提供 PB 級資料倉儲和 EB 級資料湖分析,您只需按實際用量付費

後續步驟