什麼是資料湖?

不管任何規模,您可將所有資料存放在一個集中式儲存庫中

什麼是資料湖?

資料湖是一個集中式儲存庫,可讓您以任何規模存放您的所有結構化和非結構化資料。您可以按原樣存放資料,而無需先建立資料結構,以及執行各種不同類型的分析,範圍從儀表板和視覺化至大數據處理、即時分析和機器學習,從而指引做出更好的決策。

資料湖圖

為什麼需要資料湖?

組織若能夠透過其資料成功地產生業務價值,便能超越同行。Aberdeen 調查問卷顯示實作資料湖的組織,其機能性收入增長比其他同類型的公司高出 9%。這些領導者能夠透過日誌檔案、點擊流資料、社交媒體,以及存放在資料湖中的網際網路連線裝置等新來源,進行機器學習之類的新類型分析。透過吸引和留住客戶,提高效率,主動維護裝置,以及做出明智的決策,這可協助他們更快地確定業務機會並採取行動。

資料湖與資料倉儲比較 – 兩種不同的方法

根據需求,典型組織將同時需要資料倉儲和資料湖,因為這兩種方法滿足不同的需求和使用案例。

資料倉儲是經過最佳化的資料庫,能夠分析來自交易處理系統以及企業營運應用程式中的關聯式資料。其預先定義了資料結構和結構描述,以便針對快速 SQL 查詢進行最佳化,其結果通常用於操作型報告和分析。資料經過清理、整合和轉換,因此可以用作使用者可信任的「單一來源」。

資料湖則不同,因為它不僅可存放企業營運應用程式中的關聯式資料,還能存放來自行動應用程式、物聯網裝置和社交媒體的非關聯式資料。擷取資料時未定義資料結構或結構描述。這意味著您可以存放您的所有資料,而無需精心設計,或了解將來可能需要解決的問題。可以使用各種不同類型的資料分析,例如 SQL 查詢、大數據分析、全文搜尋、即時分析和機器學習來發掘洞見。

隨著擁有資料倉儲的組織看到資料湖的優點,他們正不斷演進其倉儲,來包含資料湖,並啟用了多種查詢功能、資料科學使用案例,以及用於探索新資訊模型的進階功能。Gartner 將此演進稱為「分析用資料管理解決方案」或 "DMSA"。

特性 資料倉儲 資料湖
資料 來自交易處理系統、操作型資料庫和企業營運應用程式的關聯式資料 來自 IoT 裝置、網站、行動應用程式、社交媒體和公司應用程式的非關聯式和關聯式資料
結構描述 在資料倉儲實作前設計 (schema-on-write) 在分析時寫入 (schema-on-read)
價格/效能 使用較高成本的儲存獲得最快的查詢結果 使用低成本儲存加速取得查詢結果
資料品質
高度專業的資料,可做為事實根據 任何資料或是不一定經過整理後的資料 (即原始資料)
使用者 商業分析師 資料科學家、資料開發人員和商業分析師 (使用專業資料)
分析 批次報告、BI 和視覺化 機器學習、預測分析、資料探索和分析

資料湖和分析解決方案的基本要素

在組織建置資料湖和分析平台時,他們需要考慮許多關鍵功能,包括:

資料移動

資料湖可讓您匯入任何大小的即時資料。資料從多個來源收集,並以原始格式移入資料湖。透過此程序,您可以擴展至任意大小的資料,同時節省定義資料結構、結構描述和轉換的時間。

安全地存放和分類資料

資料湖可讓您存放關聯式資料,如操作型資料庫和企業營運應用程式中的資料;以及非關聯式資料,如行動應用程式、物聯網裝置和社交媒體資料。此外,您還能透過對資料進行爬取、分類和編製索引來了解湖中有哪些資料。最後,必須保障資料的安全,以確保您的資料資產受到保護。

分析

資料湖可讓您組織中的各種角色 (如資料科學家、資料開發人員和業務分析人員) 透過選擇的分析工具和框架來存取資料。這包括 Apache Hadoop、Presto 和 Apache Spark 等開放原始碼框架,以及資料倉儲和商業智慧(BI)供應商提供的商業產品。資料湖可讓您無需將資料移至單獨的分析系統即可執行分析。

機器學習

資料湖可讓組織產生不同類型的洞見,包括歷史資料報告,以及在建置模型預測可能的結果時進行機器學習,並建議各種指定的動作來實現最佳結果。

資料湖的價值

能夠在更短時間內利用更多來源的更多資料,並讓使用者能夠以不同的方式進行協作和分析資料,從而更好、更快地做出決策。資料湖附加值範例包括:

改善客戶互動

資料湖可以將 CRM 平台的客戶資料與社交媒體分析、包含購買歷史記錄的行銷平台,以及事件票證整合在一起,以便讓企業了解最具盈利性的客戶群、客戶流失的原因,以及會增加忠誠度的促銷或獎勵。

改善研發創新選擇

資料湖可協助研發團隊測試其假設,完善假設並評估結果,例如在產品設計中選擇合適的材料以提高效能,進行基因體研究以研製更有效的藥物,或了解客戶因不同屬性而付費的意願。

提高營運效率

物聯網 (IoT) 引入了更多方法來收集製造等程序中的資料,包含來自網際網路連線裝置的即時資料。藉助資料湖,可輕鬆地存放機器產生的物聯網資料並執行分析,以探索降低營運成本和提高品質的方法。 

資料湖的挑戰

資料湖架構的主要挑戰在於,原始資料的存放不會對內容進行監管。為了確保資料湖中的資料可用,需要定義機制來分類和保護資料。若沒有這些元素,則無法找到或信任資料,從而導致「資料沼澤」。 為了滿足更廣泛受眾的需求,資料湖必須受到管控、具有語義一致性和存取控制。

 

在雲端部署資料湖

因為雲端具有高效能、可擴展性、可靠性、可用性、各種分析引擎,以及龐大的規模經濟,所以資料湖非常適合部署在雲端環境。ESG 研究發現,39% 的受訪者將雲端用於其主要的分析部署,41% 用於資料倉儲,以及 43% 用於 Spark。客戶將雲端視為資料湖優勢的主要原因是更出色的安全性、更快的部署時間、更好的可用性、更頻繁的特性/功能更新、更大的彈性、更廣泛的地理覆蓋範圍,以及與實際使用率關聯的成本。

 

在 AWS 上的雲端建置資料湖

AWS 提供最安全、可擴展、全方位且經濟實惠的產品組合,讓客戶能夠在雲端建置自己的資料湖、分析所有資料,包括來自 IoT 裝置的資料以及含機器學習在內的各種分析方法。因此,NETFLIX、Zillow、NASDAQ、Yelp、iRobot 和 FINRA 等客戶均信任 AWS 來執行其業務關鍵型分析工作負載,相較於其他平台,更多組織選擇在 AWS 上執行其資料湖和分析。進一步了解

資料湖上的更多資源

透過行業分析師進一步了解資料湖。

開始使用 AWS

Step 1 - Sign up for an AWS account

註冊 AWS 帳戶

立即存取 AWS 免費方案

icon2

只要幾天的時間就能建立安全的資料湖

icon3

開始使用 AWS 進行建置

閱讀有關 在 AWS 上部署資料湖的資訊