AWS 上的現代資料架構
現代資料架構 – 運作方式
現代資料架構確認採用一刀切的分析方法最終會導致妥協的想法。它不僅關乎將資料湖與資料倉儲整合,而且還與整合資料湖、資料倉儲和專用存放區有關,可實現統一的管控和輕鬆的資料移動。藉助 AWS 上的現代資料架構,客戶可以快速建置可擴展的資料湖,使用廣泛而深入的專用資料服務集合,透過統一的資料存取、安全和治理確保合規,以低成本擴展其系統,無需妥協效能,並輕鬆跨組織邊界共享資料,讓他們能夠快速、敏捷地做出擴展決策。

為何需要現代資料架構
資料量以前所未有的速度增長,從 TB 級增長到 PB 級,有時甚至是 EB 級。傳統內部部署資料分析方法無法處理這些資料量,因為它們的擴展性不夠好,而且成本高昂。許多公司正在從各種孤島中獲取所有資料,並將所有資料聚合在一個位置,許多人稱之為資料湖,直接對這些資料進行分析和機器學習。有時,這些類似的公司在專用資料存放區中存放其他資料,以便分析和更快從結構化和非結構化資料中取得洞察。這種資料移動可以是「由內而外」、「由外向內」、「環繞周邊」或「移動中共享」,因為資料具有引力。
-
由內而外
-
由外向內
-
環繞周邊
-
移動中共享
-
資料引力
-
由內而外
-
由內而外資料移動
客戶將資料存放在資料湖中,然後將部分資料移至專用資料存放區以進行額外的機器學習或分析。
範例:可以直接在資料湖中收集來自 Web 應用程式的點擊流資料,並且可以將部分資料移出資料倉儲以進行日常報告。我們將此概念視為由內而外的資料移動。
-
由外向內
-
由外向內資料移動
客戶正在專用資料存放區中存放資料,例如資料倉儲或資料庫,且正在將該資料移至資料湖以對該資料執行分析。
範例:他們將給定區域內產品銷售的查詢結果從其資料倉儲複製到資料湖中,以使用 ML 針對更大的資料集執行產品推薦演算法。
-
環繞周邊
-
環繞周邊資料移動
無縫整合您的資料湖、資料倉儲和專用資料存放區。
範例:他們可以將存放在資料庫中的產品型錄資料複製到其搜尋服務中,以便更輕鬆地瀏覽產品型錄並從資料庫中卸載搜尋查詢。
-
移動中共享
-
在資料移動中共享
客戶正在使用現代資料架構來促進跨邏輯或實體治理邊界的治理和資料共享,以建立與業務領域一致的資料網域
-
資料引力
-
資料引力
隨著這些資料湖和專用存放區中的資料持續增長,移動所有這些資料變得更加困難,因為資料具有引力。確保資料可以透過正確的控制輕鬆到達需要的位置以實現分析和洞察同樣很重要。
現代資料架構支柱
各個組織正在從各種孤島中獲取其資料,並將所有資料彙總在一個位置,以對這些資料執行分析和機器學習。為了發揮資料的最大價值,他們需要利用現代資料架構,以便輕鬆地在資料湖和專用資料存放區之間移動資料。這種現代的架構方式需要:
-
可擴展的資料湖
成千上萬的客戶在 AWS 上執行其資料湖。
在現今的環境中,資料湖的設定和管理涉及大量手動且耗時的任務。AWS Lake Formation 自動執行這些任務,如此便可在幾天 (而非幾個月) 內建置資料湖並提供保護。對於資料湖儲存體來說,Amazon S3 是建置資料湖的最佳場所,這是因為它具備無與倫比的 99.999999999% 耐久性和 99.99% 可用性;藉助物件層級稽核日誌和存取控制提供最佳安全性、合規和稽核功能;藉助 5 個儲存層提供最大的靈活性;藉助每月每 TB 低於 1 USD 的起步價提供最低的成本。
-
專門打造的分析服務
AWS 提供了最廣泛且最深入的專用分析服務組合,這些服務已針對您特有的分析使用案例進行了優化。
這些服務均設計為同類最佳,這意味著您在使用它們時不必在效能、規模或成本上妥協。例如,相較於其他雲端資料倉儲,Amazon Redshift 的執行速度快 3 倍,並且至少便宜 50%。相較於標準 Apache Spark 3.0,Amazon EMR 上的 Spark 的執行速度快 1.7 倍,並且可以執行 PB 規模等級的分析,而成本不到傳統內部部署解決方案的一半。
-
統一的資料存取
隨著資料湖和專門打造的資料存放區中的資料不斷增長,您經常需要能夠輕鬆地將部分資料從一個資料存放區移動到另一個資料存放區。
AWS 可讓您輕鬆地跨多個資料存放區和資料湖合併、移動和複寫資料。例如,AWS Glue 提供了全面的資料整合功能,藉助這些功能可以輕鬆發現、準備和合併資料以進行分析、機器學習和應用程式開發,而 Amazon Redshift 可以輕鬆查詢 S3 資料湖中的資料。相比於其他分析供應商,AWS 可讓您輕鬆地將資料大規模地移動到最需要的地方。
-
統一管控
現代分析架構中最重要的部分之一是客戶能夠授權、管理和稽核對資料的存取。
此部分可能具備挑戰性,因為在組織的所有資料存放區中管理安全性、存取控制和稽核追蹤非常複雜、耗時且容易出錯。AWS 賦予您治理能力,讓您可在一處管理對跨資料湖和專用資料存放區所有資料的存取。AWS Lake Formation 可讓您集中定義和管理安全、治理和稽核政策,從而針對企業範圍的資料共享實現統一的存取控制。
-
高效能且經濟實惠
AWS 致力於在所有分析服務中以最低的成本提供最佳效能,並且我們不斷創新以提升服務的性價比。
除了面向分析服務的行業領先性價比之外,對於資料湖中儲存的資料,S3 智慧型分層還可以為客戶節省多達 70% 的儲存成本;此外,Amazon EC2 可以存取行業領先的 200 多種執行個體類型,提供高達 100Gbps 的網路頻寬,同時能夠在隨需、預留和 Spot 執行個體之間進行選擇。
更多客戶在 AWS 上利用現代資料架構
合作夥伴
了解我們的合作夥伴如何協助組織在 AWS 上建置現代資料架構。

Alluxio Data Orchestration
Alluxio Data Orchestration 讓客戶能夠更好地利用關鍵的 AWS 服務 (例如 EMR 和 S3) 來處理分析和 AI 工作負載。