AWS 雲端
開始使用 Amazon Redshift

資料倉儲是資訊的中央儲存庫,這些資訊經過分析後可協助您做出明智的決策。資料通常會定期從交易處理系統、關聯式資料庫和其他來源流入資料倉儲。商業分析師、資料科學家和決策者可透過商業智慧 (BI) 工具、SQL 用戶端和其他分析應用程式存取資料。

資料和分析已成為企業保持競爭力不可或缺的一部分。企業使用報告、儀表板和分析工具,從資料擷取深入洞見、監控商業效能和支援決策。這些報告、儀表板和分析工具都由資料倉儲提供支援,這些資料倉儲可有效率地存放資料以大幅降低 I/O,並飛快地將查詢結果同時交付給成千上萬的使用者。

下載白皮書:Enterprise Data Warehousing on AWS

資料倉儲架構是三層架構。架構的最底層是資料庫伺服器,資料在該處載入和存放。中間層由分析引擎組成,可用來存取和分析資料。最上層是前端用戶端,可透過報告、分析和資料採集工具顯示結果。

資料倉儲的運作方式是將資料組織成描述資料配置和類型的結構描述,像是整數、資料欄位或字串。導入資料時,會將資料存放在結構描述所描述的各種表格中。查詢工具使用結構描述決定要存取和分析的資料表。

資料倉儲的好處:

  • 做出更好的決策
  • 整合眾多來源的資料
  • 高資料品質、一致性和準確性
  • 歷史情報
  • 將分析處理從交易式資料庫分開,以提升這兩個系統的效能

 

資料倉儲專為資料分析所設計,可讀取大量的資料以了解資料的關係和趨勢。資料庫可用來擷取和存放資料,像是交易的錄音詳細資訊。

特性 資料倉儲 交易式資料庫
適用的工作負載 分析、報告、大數據 交易處理
資料來源 從眾多來源收集資料並進行標準化 從單一來源依原狀擷取資料,像是交易處理系統
資料擷取 大量寫入操作通常會依預先決定的批次排程進行

已進行優化,可在新資料可用時持續寫入操作,以大幅提升交易輸送量

資料標準化 非標準化結構描述,例如 Star 結構描述或 Snowflake 結構描述 高度標準化,靜態結構描述
資料儲存體 優化以簡化存取程序,並使用單欄式儲存獲得高速查詢效能 優化高輸送量寫入操作到單一列導向實體區塊
資料存取 優化以最小化 I/O 和最大化資料輸送量 大量小型讀取操作

與資料倉儲不同,資料湖是所有資料的中央儲存庫,包括結構化和非結構化資料。資料倉儲使用已針對分析優化的預先定義結構描述。資料湖不會定義結構描述,以支援大數據分析、完整文字搜尋、即時分析和機器學習等其他分析類型。

特性 資料倉儲 資料湖
資料 來自交易處理系統、操作資料庫和企業營運應用程式的關聯式資料 來自 IoT 裝置、網站、行動應用程式、社交媒體和公司應用程式的非關聯式和關聯式資料
結構描述 在資料倉儲實作前設計 (schema-on-write) 在分析時寫入 (schema-on-read)
價格/效能 使用較高成本的儲存獲得最快的查詢結果 使用低成本儲存加速取得查詢結果
資料品質 高度專業的資料,可做為事實根據 不一定專業的各種資料 (即原始資料)
使用者 商業分析師、資料科學家和資料開發人員 資料科學家、資料開發人員和商業分析師 (使用專業資料)
分析 批次報告、BI 和視覺化 機器學習、預測分析、資料探索和分析

資料市集是專門服務特定團隊或業務單位 (金融、行銷或銷售等) 的資料倉儲。它較小、較專門且可能含有資料摘要,非常適合服務其使用者社群。

特性 資料倉儲 交易式資料庫
範圍 集中,將多個主題領域整合在一起 分散,特定主題領域
使用者 整個組織 單一社群或部門
資料來源 眾多來源 單一或少數來源,或資料倉儲已收集的部分資料
大小 大型,可以是數百 GB 到 PB 小型,通常最多數十 GB
設計 從上到下 從下到上
資料詳細資訊 完整詳細的資料 可能有摘要資料

AWS 可讓您充分利用與隨需運算相關的所有核心優勢,像是存取看似無限制的儲存和運算容量,以及隨著收集、存放和查詢的資料量增加而平行擴展系統的能力,還有僅支付您佈建的資源費用。此外,AWS 也提供可彼此無縫整合的各種受管服務,讓您快速地部署端對端分析和資料倉儲解決方案。

下圖說明端對端分析處理鏈的各個重要步驟,以及每個步驟可用的 AWS 受管服務:

AWS 上的分析管道

Amazon Redshift 是快速且符合經濟效益的全受管資料倉儲,可在一個服務為您提供 PB 級的資料倉儲和 EB 級的資料湖分析。

Amazon Redshift 的速度比傳統現場部署資料倉儲快達十倍。查詢 Redshift 中數 PB 的資料和 Amazon S3 中數 EB 結構化資料或開放檔案格式以取得獨特的洞見,無須移動或轉換您的資料。

Redshift 的成本是傳統現場部署資料倉儲解決方案的 1/10。您可以從小規模開始,每小時只需 0.25 USD 且無須簽訂合約;擴展到數 PB 的資料,每年每未壓縮 TB 250 USD 到 333 USD;然後將分析延伸到您的 Amazon S3 資料湖,每掃描 10 GB 的資料只要 0.05 USD。進一步了解