AWS 快速入門 ─ 客戶立即可用的解決方案

Informatica Data Lake Management on AWS

利用 Informatica 技術和 AWS 服務建置資料湖環境

此快速入門藉由部署 Informatica Data Lake Management 解決方案,以及 Amazon EMR、Amazon Redshift、Amazon Simple Storage Service (Amazon S3) 和 Amazon Relational Database Service (Amazon RDS) 等 AWS 服務,在 Amazon Web Services (AWS) 雲端中建立資料湖環境。

資料湖會使用單一、Hadoop 型資料儲存庫,可協助您管理資料的供應與需求。AWS 上的 Informatica 解決方案可整合、組織、管理、規範及保護大量的結構化與非結構化資料。此解決方案提供可採取行動、符合用途、可靠且安全的資訊,以供企業進行洞察分析。

此快速入門會配置 AWS 基礎架構、部署 Informatica Data Lake Management 元件,並自動在 Virtual Private Cloud (VPC) 中內嵌 Hadoop 叢集,以供儲存及處理中繼資料。它會指派連線至適用於 Hadoop 分散式檔案系統 (HDFS) 和 Hive 的 Amazon EMR 叢集。它也會設定連線,使掃描 Amazon S3 和 Amazon Redshift 環境成為資料湖的功能之一。

datalake_icon_crs_informatica

此快速入門由 Informatica 與 AWS 共同合作開發。 Informatica 是
APN 合作夥伴

  •  您將建置的項目
  •  部署方式
  •  成本和授權
  •  資源
  •  您將建置的項目
  • 如果您選擇將此快速入門部署在新的 VPC 中,則會為資料湖設定下列 AWS 基礎架構:

    • 跨兩個可用區域的 VPC,其中配置了公有和私有子網路。
    • 允許存取網際網路的網際網路閘道。
    • 在公有子網路中,建置受管網路地址轉譯 (NAT) 閘道,其中配置用於出站網際網路連線的彈性 IP 地址。

    此快速入門也會安裝並配置下列 Informatica 元件:

    • Informatica 網域,這是 Informatica 平台的基礎管理單位。
    • Model Repository Service,這是關聯式資料庫,其中儲存使用 Informatica 用戶端工具建立之專案的所有中繼資料。Informatica 網域和 Informatica Model Repository 資料庫是使用 Oracle 在 Amazon RDS 上託管,Oracle 會處理備份、修補程式管理和複寫等管理工作。
    • Data Integration Service,可管理請求,將大數據整合、大數據品質和程式碼剖析工作提交至 Hadoop 叢集進行處理。
    • Content Management Service,負責管理參照資料。它會提供參照資料資訊給 Data Integration Service 和 Informatica Developer。
    • Analyst Service,負責在 Informatica 網域中執行 Analyst 工具。Analyst Service 會管理服務元件與登入 Analyst 工具的使用者之間的連線。
    • 程式碼剖析,可協助您尋找應用程式、結構描述或企業的資料來源內容、品質和結構。
    • 商業詞彙表,其中包含商業條款和政策的線上詞彙表,定義組織內部的重要概念。
    • Catalog Service,負責執行 Enterprise Data Catalog,並管理服務元件與外部應用程式之間的連線。
    • 使用 Hortonworks 的內嵌式 Hadoop 叢集,會執行 HDFS、Hbase、Yarn 和 Solr。
    • Informatica Cluster Service,負責執行及管理內嵌式 Hadoop 叢集上的所有 Hadoop 服務、Apache Ambari 伺服器和 Apache Ambari 代理程式。
    • 中繼資料和型錄,其將中繼資料持續性存放區、搜尋索引和圖形資料庫包含在內嵌式 Hadoop 叢集中。
  •  部署方式
  • 您可以遵循下列步驟,在 AWS 上建置資料湖環境:

    1. 如果您還沒有 AWS 帳戶,請在 https://aws.amazon.com 註冊。
    2. 將您的 Informatica 授權上傳至 S3 儲存貯體。若要註冊示範版授權,請聯絡 Informatica
    3. 啟動快速入門。每個部署約需 2 小時。有兩種選項可供您選擇:
    4. 監控叢集執行個體和 Informatica 網域的建立作業。
    5. 針對您的資料整合作業,使用快速入門輸出連結來下載並安裝 Informatica Developer。

    快速入門包含可自訂的參數。例如,您可以配置網路或自訂 Amazon EMR、Amazon Redshift、Amazon RDS 和 Informatica 軟體設定。

  •  成本和授權
  • 您必須自行負擔執行此快速入門參考部署時,所使用 AWS 服務的費用。使用快速入門無須另外付費。

    此快速入門的 AWS CloudFormation 範本包含可以自訂的組態參數。其中某些設定 (例如執行個體類型) 將會影響到部署的費用。若要估算費用,請針對您要使用的每種 AWS 服務,查看其定價頁面。

    此快速入門需要授權,才能部署 Informatica Data Lake Management 解決方案。若要註冊示範版授權,請聯絡 Informatica

  •  資源
  • 此快速入門參考部署與 Solution Space 中的解決方案相關,其中包含解決方案簡介、AWS 能力合作夥伴精心設計的選用諮詢服務,以及 AWS 在概念驗證 (PoC) 專案中的共同投資。若要進一步了解這些資源,請瀏覽 Solution Space。另請參閱 NGDATA、Hitachi 和 Cognizant 提供的快速入門資訊。