資料倉儲概念
什麼是資料倉儲?
資料倉儲是資訊的中央儲存庫,這些資訊經過分析後可協助您做出更明智的決策。資料通常會定期從交易處理系統、關聯式資料庫和其他來源流入資料倉儲。商業分析師、資料工程師、資料科學家和決策者可透過商業智慧 (BI) 工具、SQL 用戶端和其他分析應用程式存取資料。
資料和分析已成為企業保持競爭力不可或缺的一部分。企業使用者依賴報告、儀表板和分析工具,從資料擷取深入洞見、監控商業效能和支援決策。資料倉儲為這些報告、儀表板和分析工具提供支援,透過有效率地存放資料以最大程度地減少資料的輸入和輸出 (I/O),並快速地將查詢結果同時交付給成千上萬的使用者。
資料倉儲如何設計?
資料倉儲架構由層組成。最上層是前端用戶端,可透過報告、分析和資料採集工具顯示結果。中間層由分析引擎組成,可用來存取和分析資料。架構的最底層是資料庫伺服器,資料在該處載入和存放。資料以兩種不同類型的方式存放:1) 經常存取的資料存放在非常快速的儲存體 (如 SSD 驅動程式);2) 不常存取的資料存放在實惠的物件存放區中,如 Amazon S3。資料倉儲將自動確保將經常存取的資料移至「快速」儲存體中,從而最佳化查詢速度。
資料倉儲如何運作?
資料倉儲可能包含多個資料庫。在每個資料庫中,資料被整理成資料表和資料欄。在各欄中,您可以定義資料的描述,例如整數、資料欄位或字串。資料表可以在結構描述內進行整理,您可以將其視為資料夾。導入資料時,會將資料存放在結構描述所描述的各種表格中。查詢工具使用結構描述決定要存取和分析的資料表。
使用資料倉儲有哪些優點?
資料倉儲的優點包括:
- 做出明智的決策
- 整合眾多來源的資料
- 歷史資料分析
- 高資料品質、一致性和準確性
- 將分析處理從交易式資料庫分開,以提升這兩個系統的效能
資料倉儲、資料庫和資料湖如何協同工作?
通常,企業使用資料庫、資料湖和資料倉儲組合來存放和分析資料。Amazon Redshift 的資料湖架構可輕鬆實現這種整合。
隨著資料量和種類的增加,遵循一種或多種常見模式來處理資料庫、資料湖和資料倉儲中的資料非常有優勢:

上圖:將資料放入資料庫或資料湖,準備資料,將選取的資料移入資料倉儲,然後執行報告。

上圖:將資料放入資料倉儲,分析資料,然後共用資料以與其他分析和機器學習服務一起使用。
資料倉儲專為資料分析所設計,可讀取大量的資料以了解資料的關係和趨勢。資料庫可用來擷取和存放資料,像是錄製交易的詳細資訊。
與資料倉儲不同,資料湖是所有資料的中央儲存庫,包括結構化、半結構化和非結構化資料。資料倉儲要求以表格格式整理資料,這是結構描述發揮作用之處。需要表格格式才能使用 SQL 查詢資料。但是,並非所有應用程式都要求資料採用表格格式。某些應用程式,例如大數據分析、全文搜尋和機器學習,即使資料是「半結構化」或完全非結構化也可以存取。
資料倉儲與資料湖的比較
特性 | 資料倉儲 | 資料湖 |
---|---|---|
資料 | 來自交易處理系統、操作資料庫和企業營運應用程式的關聯式資料 |
所有資料,包括結構化、半結構化和非結構化資料 |
結構描述 | 通常在資料倉庫實作之前設計,但也可以在分析時寫入 (schema-on-write 或 schema-on-read) |
在分析時寫入 (schema-on-read) |
價格/效能 |
使用本機儲存獲得最快的查詢結果 |
使用低成本儲存以及運算和儲存分開,可加速取得查詢結果 |
資料品質 |
高度專業的資料,可做為事實根據 |
不一定專業的各種資料 (即原始資料) |
使用者 | 商業分析師、資料科學家和資料開發人員 |
商業分析師 (使用專業數據)、資料科學家、資料開發人員、資料工程師和資料架構師 |
分析 | 批次報告、BI 和視覺化 |
機器學習、探索性分析、資料發現、串流、營運分析、大數據和分析 |
資料倉儲與資料庫的比較
特性 | 資料倉儲 | 交易式資料庫 |
---|---|---|
適用的工作負載 |
分析、報告、大數據 |
交易處理 |
資料來源 | 從眾多來源收集資料並進行標準化 | 從單一來源依原狀擷取資料,像是交易處理系統 |
資料擷取 |
大量寫入操作通常會依預先決定的批次排程進行 |
已進行優化,可在新資料可用時持續寫入操作,以大幅提升交易輸送量 |
資料標準化 |
非標準化結構描述,例如 Star 結構描述或 Snowflake 結構描述 |
高度標準化,靜態結構描述 |
資料儲存 | 最佳化以簡化存取程序,並使用單欄式儲存獲得高速查詢效能 |
最佳化高輸送量寫入操作到單一列導向實體區塊 |
資料存取 | 最佳化以最小化 I/O 和最大化資料輸送量 |
大量小型讀取操作 |
資料市集與資料倉儲相比如何?
資料市集是專門服務特定團隊或業務單位 (金融、行銷或銷售等) 的資料倉儲。它較小、較專門且可能含有資料摘要,非常適合服務其使用者社群。資料市集也可能是資料倉儲的一部分。
資料倉儲與資料市集的比較
特性 | 資料倉儲 | 資料市集 |
---|---|---|
範圍 | 集中,將多個主題領域整合在一起 |
分散,特定主題領域 |
使用者 | 整個組織 |
單一社群或部門 |
資料來源 |
眾多來源 |
單一或少數來源,或資料倉儲已收集的部分資料 |
大小 |
大型,可以是數百 GB 到 PB |
小型,通常最多數十 GB |
設計 | 從上到下 |
從下到上 |
資料詳細資訊 | 完整詳細的資料 |
可能有摘要資料 |
如何在 AWS 上部署資料倉儲?
AWS 可讓您充分利用與隨需運算相關的所有核心優勢︰存取看似無限制的儲存和運算容量,隨著收集、存放和查詢的資料量增加而平行擴展系統,以及僅支付您佈建的資源費用。AWS 提供可彼此無縫整合的各種受管服務,讓您快速地部署端對端分析和資料倉儲解決方案。
下圖顯示了端對端分析程序 (也稱為堆疊) 的關鍵步驟。AWS 在每個步驟都提供各種受管服務。

上圖:AWS 在分析程序的每個步驟提供各種產品與服務。
Amazon Redshift 是我們快速、全受管且經濟高效的資料倉儲服務。它在一項服務中即可為您提供 PB 級資料倉儲和 EB 級資料湖分析,您只需按實際用量付費。
後續步驟
- 依照此逐步指南操作,並部署 Amazon Redshift 資料倉儲 »
- 開始 2 個月的免費試用 »