参考部署

在 AWS 上部署数据湖基础

使用 AWS 服务,包括 Amazon Redshift、Amazon Kinesis、AWS Glue 和 Amazon SageMaker

此解决方案将部署集成 Amazon Web Services(AWS)服务的数据湖基础,这些服务包括:Amazon Simple Storage Service(Amazon S3)、Amazon Redshift、Amazon Kinesis、Amazon Athena、AWS Glue、Amazon Elasticsearch Service(Amazon ES)、Amazon SageMaker 和 Amazon QuickSight 等等。

数据湖基础使用这些 AWS 服务来提供诸如数据提交、接收处理、数据集管理、数据转换和分析、构建和部署机器学习工具、搜索、发布及可视化等功能。建立此基础时,您可以选择使用 ISV 和 SaaS 工具来扩充数据湖。

此参考架构由您可以自定义的 AWS CloudFormation 模板自动实施,以满足您的要求。

本解决方案由 AWS 开发。

  •  构建内容
  • 本解决方案设置了以下内容:

    • 一个跨两个可用区且包含两个公有子网和两个私有子网的虚拟私有云(VPC)。*
    • 一个允许访问互联网的互联网网关。*
    • 在公有子网中设置托管 NAT 网关,以允许对私有子网中的资源进行出站互联网访问。*
    • 在公有子网内的 Auto Scaling 组中设置 Linux 堡垒主机,以允许对公有子网和私有子网中的 EC2 实例进行入站安全 Shell (SSH) 访问。*
    • 允许访问 AWS 资源的 AWS Identity and Access Management (IAM) 角色;例如,允许 Amazon Redshift 和 Amazon Athena 读取与写入监管数据集。
    • 在私有子网中设置 Amazon Redshift,用于数据聚合、分析、转换以及创建新的监管和发布数据集。
    • 一个可使用 AWS 身份验证进行访问的 Amazon SageMaker 实例。
    • 与其他 Amazon 服务集成,例如 Amazon S3、Amazon Athena、AWS Glue、AWS Lambda、Amazon ES with Kibana、Amazon Kinesis 和 Amazon QuickSight。

    * 将此解决方案部署到现有 VPC 中的模板会跳过标有星号的任务,并提示您使用现有 VPC 配置。

  •  如何部署
  • 要部署此解决方案,请遵循部署指南中的说明操作,其中包括这些步骤。

    1. 登录您的 AWS 账户。如果您还没有 AWS 账户,请访问 https://aws.amazon.com 进行注册。
    2. 启动解决方案。堆栈部署时间约为 50 分钟。在创建堆栈之前,从顶部工具栏中选择 AWS 区域。选择以下任一方案:
    3. 通过检查此解决方案创建的资源来测试部署。

    本解决方案包括可自定义的参数。例如,您可以配置您的网络,或者自定义 Amazon Redshift、Kinesis 和 Elasticsearch 设置。 

    Amazon 可能会跟与 AWS 合作打造此解决方案的 AWS 合作伙伴共享用户部署信息。  

  •  费用和许可证
  • 您需要支付在运行此解决方案期间使用 AWS 服务和任何第三方许可证所产生的费用。使用此解决方案不会产生任何额外费用。

    此解决方案包括可自定义的配置参数。其中一些设置(如实例类型)会影响部署成本。有关成本估算信息,请参阅您使用的每种 AWS 服务的定价页面。价格可能随时变动。

    提示:部署解决方案后,请创建 AWS 成本和使用情况报告,以跟踪相关成本。这些报告会将账单指标发送至您账户中的 Amazon Simple Storage Service (Amazon S3) 桶。它们根据每个月的使用情况提供成本估算,并在月末汇总数据。有关更多信息,请参阅 什么是 AWS 成本和使用情况报告?
  •  资源
  • 此解决方案与“解决方案领域”中的解决方案相关,其中包括简介、由 AWS 能力合作伙伴精心设计的可选咨询服务以及 AWS 在概念验证(PoC)项目中的共同投资。有关更多信息,请参阅解决方案领域。