什麼是資料湖?
資料湖是一個集中式儲存庫,可讓您以任何規模存放您的所有結構化和非結構化資料。您可以按原樣存放資料,而無需先建立資料結構,以及執行各種不同類型的分析,範圍從儀表板和視覺化至大數據處理、即時分析和機器學習,從而指引做出更好的決策。
為什麼需要資料湖?
組織若能夠透過其資料成功地產生業務價值,便能超越同行。Aberdeen 調查問卷顯示實作資料湖的組織,其機能性收入增長比其他同類型的公司高出 9%。這些領導者能夠透過日誌檔案、點擊流資料、社交媒體,以及存放在資料湖中的網際網路連線裝置等新來源,進行機器學習之類的新類型分析。透過吸引和留住客戶,提高效率,主動維護裝置,以及做出明智的決策,這可協助他們更快地確定業務機會並採取行動。
資料湖和分析解決方案有哪些基本要素?
在組織建置資料湖和分析平台時,他們需要考慮許多關鍵功能,包括:
資料移動
資料湖可讓您匯入任何大小的即時資料。資料從多個來源收集,並以原始格式移入資料湖。透過此程序,您可以擴展至任意大小的資料,同時節省定義資料結構、結構描述和轉換的時間。
安全地存放和分類資料
資料湖可讓您存放關聯式資料,如操作型資料庫和企業營運應用程式中的資料;以及非關聯式資料,如行動應用程式、物聯網裝置和社交媒體資料。此外,您還能透過對資料進行爬取、分類和編製索引來了解湖中有哪些資料。最後,必須保障資料的安全,以確保您的資料資產受到保護。
分析
資料湖可讓您組織中的各種角色 (如資料科學家、資料開發人員和業務分析人員) 透過選擇的分析工具和框架來存取資料。這包括 Apache Hadoop、Presto 和 Apache Spark 等開放原始碼框架,以及資料倉儲和商業智慧(BI)供應商提供的商業產品。資料湖可讓您無需將資料移至單獨的分析系統即可執行分析。
機器學習
資料湖可讓組織產生不同類型的洞見,包括歷史資料報告,以及在建置模型預測可能的結果時進行機器學習,並建議各種指定的動作來實現最佳結果。
資料倉儲與資料湖相比如何?
根據需求,典型組織將同時需要資料倉儲和資料湖,因為這兩種方法滿足不同的需求和使用案例。
資料倉儲是經過最佳化的資料庫,能夠分析來自交易處理系統以及企業營運應用程式中的關聯式資料。其預先定義了資料結構和結構描述,以便針對快速 SQL 查詢進行最佳化,其結果通常用於操作型報告和分析。資料經過清理、整合和轉換,因此可以用作使用者可信任的「單一來源」。
資料湖則不同,因為它不僅可存放企業營運應用程式中的關聯式資料,還能存放來自行動應用程式、物聯網裝置和社交媒體的非關聯式資料。擷取資料時未定義資料結構或結構描述。這意味著您可以存放您的所有資料,而無需精心設計,或了解將來可能需要解決的問題。可以使用各種不同類型的資料分析,例如 SQL 查詢、大數據分析、全文搜尋、即時分析和機器學習來發掘洞見。
隨著擁有資料倉儲的組織看到資料湖的優點,他們正不斷演進其倉儲,來包含資料湖,並啟用了多種查詢功能、資料科學使用案例,以及用於探索新資訊模型的進階功能。Gartner 將此演進稱為「分析用資料管理解決方案」或 "DMSA"。
如需資料湖與資料倉儲之間的深入比較,請造訪我們專屬的資料湖與資料倉儲比較頁面。
資料湖有何價值?
能夠在更短時間內利用更多來源的更多資料,並讓使用者能夠以不同的方式進行協作和分析資料,從而更好、更快地做出決策。資料湖附加值範例包括:
改善客戶互動
資料湖可以將 CRM 平台的客戶資料與社交媒體分析、包含購買歷史記錄的行銷平台,以及事件票證整合在一起,以便讓企業了解最具盈利性的客戶群、客戶流失的原因,以及會增加忠誠度的促銷或獎勵。
改善研發創新選擇
資料湖可協助研發團隊測試其假設,完善假設並評估結果,例如在產品設計中選擇合適的材料以提高效能,進行基因體研究以研製更有效的藥物,或了解客戶因不同屬性而付費的意願。
提高營運效率
物聯網 (IoT) 引入了更多方法來收集製造等程序中的資料,包含來自網際網路連線裝置的即時資料。藉助資料湖,可輕鬆地存放機器產生的物聯網資料並執行分析,以探索降低營運成本和提高品質的方法。
資料湖面臨哪些挑戰?
資料湖架構的主要挑戰在於,原始資料的存放不會對內容進行監管。為了確保資料湖中的資料可用,需要定義機制來分類和保護資料。若沒有這些元素,則無法找到或信任資料,從而導致「資料沼澤」。 為了滿足更廣泛受眾的需求,資料湖必須受到管控、具有語義一致性和存取控制。
如何在雲端部署資料湖?
因為雲端具有高效能、可擴展性、可靠性、可用性、各種分析引擎,以及龐大的規模經濟,所以資料湖非常適合部署在雲端環境。ESG 研究發現,39% 的受訪者將雲端用於其主要的分析部署,41% 用於資料倉儲,以及 43% 用於 Spark。客戶將雲端視為資料湖優勢的主要原因是更出色的安全性、更快的部署時間、更好的可用性、更頻繁的特性/功能更新、更大的彈性、更廣泛的地理覆蓋範圍,以及與實際使用率關聯的成本。
AWS 如何支援您的資料湖要求?
AWS 提供最安全、可擴展、全方位且經濟實惠的產品組合,讓客戶能夠在雲端建置自己的資料湖、分析所有資料,包括來自 IoT 裝置的資料以及含機器學習在內的各種分析方法。因此,NETFLIX、Zillow、NASDAQ、Yelp、iRobot 和 FINRA 等客戶均信任 AWS 來執行其業務關鍵型分析工作負載,相較於其他平台,更多組織選擇在 AWS 上執行其資料湖和分析。
立即建立帳戶,開始在 AWS 上使用資料湖。