发布于: Nov 7, 2017
此快速入门可自动执行用于在 Amazon Web Services (AWS) 云上实施数据湖的硬件和软件的设计、安装和配置。快速入门将预置用于构建数据湖的 Talend 大数据平台组件和 AWS 服务,例如 Amazon EMR、Amazon Redshift、Amazon Simple Storage Service (Amazon S3) 和 Amazon Relational Database Service (Amazon RDS)。它还提供一个由 Cognizant Technology Solutions 开发的可选的示例数据集和 Talend 任务,以展示用于将 Apache Spark、Apache Hadoop、Amazon EMR、Amazon Redshift 和 Amazon S3 技术集成到数据湖实施中的大数据实践。
快速入门适用于要评估云中的大数据或期望通过采用针对大数据整合的最佳实践来加快大数据计划的用户。快速入门提供了以下功能:
- 通过预置构建数据湖所需的服务和组件来实现自助服务。
- 提供加速开发、测试和生产环境的灵活性。
- 包含一个可选的示例数据集和预构建的 Talend Spark 任务,帮助您探索架构并了解端到端数据流的各个阶段。
- 包含数据提取、数据处理和数据存储库功能 (使用 Talend 和 Spark 功能)。
- 选择性地提供 Cognizant 提取框架、大数据验证和开发运营平台以提取、验证和部署大数据解决方案。(这些功能不会通过快速入门 CloudFormation 模板自动实现。)
自动执行部署的 AWS CloudFormation 模板是可自定义的。
开始之前,请参阅以下资源:
- 了解有关数据湖架构的更多信息。
- 查看部署指南
- 浏览和启动其他 AWS 快速入门参考部署
关于快速入门
快速入门是适用于 AWS 云中关键工作负载的自动化参考部署。每个快速入门都使用有关安全性和可用性的 AWS 最佳实践来启动、配置和运行在 AWS 上部署特定工作负载所需的 AWS 计算、网络、存储和其他服务。这是一系列 AWS 客户就绪解决方案中最新的一个,它是处理特定使用案例或业务流程的可随时部署的参考架构和最佳实践。此快速入门由 Talend 和 Cognizant 与 AWS 合作创建。