AWS 快速入門 ─ 客戶立即可用的解決方案

使用 Talend 大數據平台的資料湖

使用 Talend 大數據平台、AWS 服務和 Cognizant 最佳實務

此快速入門藉由部署 Talend 大數據平台元件,以及 Amazon EMR、Amazon Redshift、Amazon Simple Storage Service (Amazon S3) 和 Amazon Relational Database Service (Amazon RDS) 等 AWS 服務,在 Amazon Web Services (AWS) 雲端中建立資料湖環境。

快速入門亦提供選擇性的資料集範例和 Cognizant Technology Solutions 所開發的 Talend 工作,可說明將 Apache Spark、Apache Hadoop、Amazon EMR、Amazon Redshift 和 Amazon S3 技術整合至資料湖實作的大數據實務。

本快速入門是專為正在評估雲端大數據或有意採用大數據整合最佳實務來加速大數據計畫的使用者所提供。

您可以選擇建立為安全性、可擴展性和高可用性設定的新 Virtual Private Cloud (VPC) 基礎設施,也可以使用您現有的 VPC 基礎設施部署資料湖。

datalake_icon_crs_talend

本快速入門由 Cognizant Technology Solutions 和 Talend Inc. 與 AWS 共同合作開發。Cognizant 和 Talend 是
APN 合作夥伴

  •  您將建置的項目
  •  部署方式
  •  成本和授權
  •  資源
  •  您將建置的項目
  • 資料湖快速入門架構包含以下要素:

    • 跨兩個可用區域的 VPC。每個可用區域包含兩個子網路:允許透過網際網路連線的公用子網路以及適用於 Talend 工作伺服器、Amazon Redshift、Amazon RDS 和 Amazon EMR 的私有子網路。(第二個可用區域的私有子網域僅包含工作伺服器。)*
    • 允許存取網際網路的網際網路閘道。堡疊主機會利用此閘道傳送和接收流量。*
    • 公用子網路中的受管網路位址轉譯 (NAT) 閘道,允許對私有子網路中的資源進行傳出網際網路存取。*
    • 在一個或兩個公用子網路中的 Linux 堡壘主機,允許在私有子網路中,傳入安全殼層 (SSH) 存取資源。*您可以在啟動快速入門時選擇堡壘主機的數量。*
    • 在第一個可用區域的公用子網路中:
      • 主控 Talend 管理中心 (TAC) 的 Talend 公用伺服器可透過瀏覽器管理 Talend 工作。
      • 不想在筆記型電腦上執行 Talend Studio 的使用者可透過 X2Go 用戶端取得 Talend Studio 遠端桌面執行個體。
      • 適用於二進位和來源組態管理的 Nexus 成品儲存庫和 Git 伺服器。
      • 使用 Amazon Elasticsearch Service (Amazon ES)、Logstash 和 Kibana 的 Talend 日誌伺服器。
    • 在第一個可用區域的私有子網路中:
      • Amazon RDS MySQL 資料庫執行個體可主控 Talend 中繼資料。
      • 具有 Pig、Hive 和 Spark 的 Amazon EMR 叢集與 Talend 大數據平台緊密整合,並在資料湖中提供 Hadoop 功能。
      • Amazon Redshift 叢集可用作資料倉儲或資料市集。
    • 在私有子網路中,Talend 工作伺服器執行個體在 Auto Scaling 群組中執行由 TAC 排程的 Talend 工作。Auto Scaling 可讓 EC2 執行個體針對 Talend 工作伺服器的需求自動擴展和縮減。您可以設定部署期間所需的執行個體數目及其數目上限。
    • 在公用子網路中,Talend 遠距離執行工作伺服器執行個體,以在 Auto Scaling 群組中代表 Talend Studio 使用者執行 Talend 工作。您可以在 Talend Studio 或這些伺服器上本機執行 Talend 工作。Auto Scaling 群組可讓 EC2 執行個體視 Talend 工作伺服器的需求自動擴展和縮減。您可以設定部署期間的執行個體的指定數目和數目上限。
    • Amazon S3 可為資料湖導入資料。

     

    *  將快速入門部署至現有 VPC 的範本會略過標有星號的任務,並提示您輸入現有的 VPC 組態。

  •  部署方式
  • 您可以透過以下幾個簡單步驟,在大約 1 小時內在 AWS 上建構資料湖環境:

    1. 如果您尚未擁有 AWS 帳戶,請在 https://aws.amazon.com 註冊。
    2. 將您的 Talend 大數據平台授權上傳到私有 S3 儲存貯體。您可以在 Talend 網站註冊 30 天免費試用版授權。
    3. 啟動快速入門。有兩個選項可供您選擇:
    4. 開啟 Talend 管理中心 (TAC) 測試部署,並藉由快速入門檢查部署的伺服器。您也可以按照 Talend 和 Cognizant 提供的使用者指南,選擇執行 Talend 工作來測試端對端資料整合。 

    快速入門包含可自訂的參數。例如,您可以設定網路或自訂 TAC、Amazon Redshift、Nexus 和 Git 伺服器設定。

  •  成本和授權
  • 您必須自行負擔執行此快速入門參考部署時,所使用 AWS 服務的費用。使用快速入門無須另外付費。

    此快速入門的 AWS CloudFormation 範本包含可以自訂的組態參數。其中某些設定 (例如執行個體類型) 將會影響到部署的費用。若要估算費用,請針對您要使用的每種 AWS 服務,查看其定價頁面。

    您需要提供您的 Talend 大數據平台授權。如需要求 30 天免費試用版授權,請填寫 Talend 網站的註冊表單。Talend 將傳送唯一的授權金鑰給您,以用於快速入門部署程序。

    您可以在 Apache 授權下方取得快速入門中所有 Talend 工作的程式碼。

  •  資源
  • 此快速入門參考部署與 Solution Space 中的解決方案相關,其中包含解決方案簡介、AWS 能力合作夥伴精心設計的選用諮詢服務,以及 AWS 在概念驗證 (PoC) 專案中的共同投資。要進一步了解這些資源,請瀏覽 Solution Space。