參考部署

AWS 上的資料湖基礎

使用 Amazon Redshift、Amazon Kinesis、AWS Glue 和 Amazon SageMaker 等 AWS 服務

本快速入門會部署一個整合 Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Amazon Kinesis、Amazon Athena、AWS Glue、Amazon Elasticsearch Service (Amazon ES)、Amazon SageMaker 和 Amazon QuickSight 等 Amazon Web Services (AWS) 的資料湖基礎。

資料湖基礎使用這些 AWS 服務,以提供資料提交、導入處理、資料集管理、資料轉換和分析、建置和部署機器學習工具、搜尋,發佈及視覺化等功能。這個基礎一旦就緒,您可以選擇使用 ISV 和 SaaS 工具來擴大資料湖。

這個參考架構由 AWS CloudFormation 範本自動執行,您可以自訂範本以滿足特定需求。

另請參閱:如果這個架構不符合您的特定需求,請查看 Quick Start 型錄中的其他資料湖部署。

aws-logo-for-quick-start-150x90

此 Quick Start 由 AWS 開發。

  •  您將建置的項目
  •  如何部署
  •  成本和授權
  •  資源
  •  您將建置的項目
  • 資料湖快速入門架構包括以下基礎設施:

    • 跨越兩個可用區域,並包含兩個公有和兩個私有子網路的虛擬私有雲端 (VPC)。*
    • 允許存取網際網路的網際網路閘道。*
    • 在公有子網路中,允許對私有子網路中的資源進行傳出網際網路存取的受管 NAT 閘道。*
    • 在公用子網路中,Auto Scaling 群組中的 Linux 堡壘主機將允許在公用及私有子網路中,傳入安全殼層 (SSH) 對 EC2 執行個體的存取。*
    • AWS Identity and Access Management (IAM) 角色提供存取 AWS 資源的許可;例如,允許 Amazon Redshift 和 Amazon Athena 讀取和寫入專業資料集。
    • 在私有子網路中,使用 Amazon Redshift 進行資料彙總、分析、轉換,以集建立新的專業資料集並予發佈。
    • 可以使用 AWS 驗證進行存取的 Amazon SageMaker 執行個體。
    • 與 Amazon S3、Amazon Athena、AWS Glue、AWS Lambda、Amazon ES with Kibana、Amazon Kinesis 和 Amazon QuickSight 等 Amazon 服務整合。

    *  將 Quick Start 部署至現有 VPC 的範本會略過標有星號的任務,並提示您輸入現有的 VPC 組態。

  •  如何部署
  • 要在 AWS 上建立資料湖環境,請依照部署指南中的說明操作。部署過程大約需要 50 分鐘,包括以下步驟:

    1. 如果您尚未擁有 AWS 帳戶,請在 https://aws.amazon.com 註冊。
    2. 啟動快速入門。有兩個選項可供您選擇:
    3. 檢查快速入門建立的資源,以測試您的部署。

    快速入門包含可自訂的參數。例如,您可以設定網路,或自訂 Amazon Redshift、Kinesis 和 Elasticsearch 設定。 

    Amazon 可能會與 AWS 合作夥伴 (與 AWS 在快速入門上進行協作的合作夥伴) 分享使用者部署資訊。  

  •  成本和授權
  • 您必須自行負擔執行此快速入門參考部署時,所使用 AWS 服務的費用。使用快速入門無須另外付費。

    此快速入門的 AWS CloudFormation 範本包含可以自訂的組態參數。其中某些設定 (例如執行個體類型) 將會影響到部署的費用。查看您將使用的每個 AWS 服務的定價頁面,了解詳細資訊。

    由於本快速入門使用 AWS 原生的解決方案元件,除了 AWS 基礎設施的成本外,並無成本或授權要求。本快速入門也會部署 Kibana,Amazon ES 內建的開放原始碼工具。

  •  資源
  • 此快速入門參考部署與 Solution Space 中的解決方案相關,其中包含解決方案簡介、AWS 能力合作夥伴精心設計的選用諮詢服務,以及 AWS 在概念驗證 (PoC) 專案中的共同投資。要進一步了解這些資源,請瀏覽 Solution Space。