許多 Amazon Web Services (AWS) 客戶需要提供比傳統資料管理系統更具敏捷性和彈性的資料儲存和分析解決方案。由於資料湖允許公司管理來自各式各樣來源的資料類型,並在集中式的儲存庫中存放結構化和非結構化資料,因此資料湖成為越來越熱門的新型資料存放和分析方式。
AWS 雲端提供許多必要的建置區塊,協助客戶實作安全、有彈性且經濟實惠的資料湖。這些包含 AWS Managed Services,可協助擷取、存放、尋找、處理和分析結構化和非結構化資料。為了在客戶建立資料湖時提供支援,AWS 提供了 AWS 資料湖,這可在 AWS 雲端部署高度可用、具成本效益的資料湖架構,以及提供簡單易用的主控台用於搜尋和請求資料集。
概觀
AWS 資料湖可自動設定簡化標記、搜尋、共享、轉換、分析和管理公司內部或與其他外部使用者之間特定資料子集所需的核心 AWS 服務。該指引會部署一個使用者可存取的主控台,讓使用者可根據業務需要來搜尋和瀏覽可用的資料集。它還包含聯合範本,可讓您啟動能與 Microsoft Active Directory 整合的解決方案版本。
以下圖表展示了您可以使用 GitHub 上的範例程式碼建置的資料湖架構。

AWS 資料湖架構
程式碼會設定一套 AWS Lambda 微型服務 (函數)、Amazon OpenSearch Service 用於提供健全的搜尋功能、Amazon Cognito 用於使用者身分驗證、AWS Glue 用於資料轉換,以及 Amazon Athena 用於分析。
AWS 資料湖利用 Amazon S3 的安全性、耐久性和可擴展性來管理組織資料集的持久性目錄,並利用 Amazon DynamoDB 來管理對應的中繼資料。資料集編入型錄後,其屬性和描述性標籤即可進行搜尋。使用者可以在主控台中搜尋並瀏覽可用資料集,並建立其需要存取的資料清單。該解決方案會追蹤使用者選取的資料集並產生資訊清單檔案,內含使用者查看時所需內容的安全存取連結。