AWS 快速入门 - 客户就绪解决方案

使用 Talend 大数据平台的数据湖

使用 Talend 大数据平台、AWS 服务和 Cognizant 最佳实践

此 Quick Start 通过部署 Talend Big Data Platform 组件和 AWS 服务(如 Amazon EMR、Amazon Redshift、Amazon Simple Storage Service (Amazon S3) 和 Amazon Relational Database Service)在 Amazon Web Services (AWS) 云上构建数据湖环境( 亚马逊 RDS)。

此 Quick Start 还提供一个由 Cognizant Technology Solutions 开发的可选的示例数据集和 Talend 任务,以展示用于将 Apache Spark、Apache Hadoop、Amazon EMR、Amazon Redshift 和 Amazon S3 技术集成到数据湖实施中的大数据实践。

快速入门适用于要评估云中的大数据或期望通过采用针对大数据整合的最佳实践来加快大数据计划的用户。

您可以选择构建新的 Virtual Private Cloud (VPC) 基础设施,在安全性、可扩展性和高可用性方面对其进行配置,或使用现有 VPC 基础设施来构建数据湖。

datalake_icon_crs_talend

此 Quick Start 由 Cognizant Technology Solutions 与 Talend Inc. 合作开发。Cognizant 和 Talend 为
APN 合作伙伴

  •  构建内容
  •  部署方式
  •  费用和许可证
  •  资源
  •  构建内容
  • 数据湖的 Quick Start 架构包含以下内容:

    • 一个跨两个可用区的 (VPC)。每个可用区包含两个子网:一个允许通过互联网进行连接的公有子网和一个用于 Talend 作业服务器、Amazon Redshift 和 Amazon EMR 的私有子网。(第二个可用区中的私有子网仅含作业服务器。)*
    • 一个允许访问互联网的互联网网关,以供堡垒主机用来发送和接收流量。*
    • 在公有子网中设置托管网络地址转换 (NAT) 网关,以允许对私有子网中的资源进行出站互联网访问。*
    • 在一个或两个公共子网中,Linux 堡垒主机允许对私有子网中的资源进行入站安全外壳 (SSH) 访问。您可在启动 Quick Start 时选择堡垒主机的数量。*
    • 第一个可用区的公共子网包含:
      • 托管 Talend 管理中心 (TAC) 的 Talend 公共服务器,用于通过浏览器来管理 Talend 作业。
      • 通过 X2Go 客户端提供的 Talend Studio 远程桌面实例,适用于不想在其笔记本电脑上运行 Talend Studio 的用户。
      • 用于二进制和源配置管理的 Nexus 构建库和 Git 服务器。
      • 使用 Amazon Elasticsearch Service (Amazon ES)、Logstash 和 Kibana 的 Talend 日志服务器。
    • 第一个可用区的公共子网包含:
      • 用于托管 Talend 元数据的 Amazon RDS MySQL 数据库实例。
      • 带有 Pig、Hive 和 Spark 的 Amazon EMR 集群,与 Talend 大数据平台紧密集成,并在数据湖中提供 Hadoop 功能。
      • Amazon Redshift 集群,用作数据仓库或数据集市。
    • 在私有子网中,运行 TAC 调度的 Talend 作业服务器实例位于 Auto Scaling 组中。Auto Scaling 允许 EC2 实例自动向上或向下旋转以响应 Talend 作业服务器上的需求。您可在部署期间配置所需实例数和最大实例数。
    • 在公共子网中,Talend 远程运行作业服务器实例,代表 Talend Studio 用户在 Auto Scaling 组中运行 Talend 作业。您可在 Talend Studio 或这些服务器上本地运行 Talend 作业。Auto Scaling 组允许 EC2 实例自动向上或向下旋转以响应 Talend 作业服务器上的需求。您可在部署期间配置所需实例数和最大实例数。
    • Amazon S3 为数据湖提取数据。

     

    * 将本 Quick Start 部署到现有 VPC 中的模板会跳过标有星号的任务,并提示您使用现有 VPC 配置。

  •  部署方式
  • 遵循简单几个步骤,您就可以在 1 小时内在 AWS 上构建您的数据湖环境:

    1. 如果您还没有 AWS 账户,请访问 https://aws.amazon.com 进行注册。
    2. 将您的 Talend Big Data Platform 许可证上载到私有 S3 存储桶中。您可以在 Tableau 网站上注册试用免费许可证,试用期为 30 天。
    3. 启动此快速入门。有以下两种方案可供选择:
    4. 通过打开 Talend 管理中心 (TAC) 并检查由 Quick Start 部署的服务器来测试部署。此外,您还可按照 Talend 和 Cognizant 提供的用户指南中的步骤来运行 Talend 可选作业,以测试端到端数据集成。 

    本 Quick Start 包括可自定义的参数。例如,您可以配置您的网络,或者自定义 TAC、Amazon Redshift、Nexus 和 Git 服务器设置。

  •  费用和许可证
  • 您需要支付在运行此 Quick Start 的参考部署期间使用 AWS 服务所产生的费用。使用此 Quick Start 无需额外付费。

    本 Quick Start 的 AWS CloudFormation 模板包含您可以自定义的配置参数。其中一些设置(如实例类型)会影响部署成本。有关成本估算信息,请参阅您要使用的各项 AWS 服务的定价页面。

    您需要提供您的 Talend Big Data Platform 许可证。如需申请 30 天免费试用许可证,请进入 Talend 网站填写注册表格。Talend 将向您发送一个唯一的许可证密钥,供您在 Quick Start 部署过程中使用。

    Quick Start 中包含的所有 Talend 作业代码均在 Apache 许可证项下发布。

  •  资源
  • 本快速入门参考部署与“解决方案领域”中的解决方案相关,其中包括解决方案简介、由 AWS 能力合作伙伴精心设计的可选咨询服务以及 AWS 在概念验证 (PoC) 项目中的共同投资。要了解有关这些资源的更多信息,请访问“解决方案领域”。