AWS 上的现代数据架构
现代数据架构 – 工作原理
现代数据架构承认,所谓放之四海而皆准的分析方法最终会导致皆不准。它不是简单地将数据湖和数据仓库糅合在一起,而是将数据湖、数据仓库和专用数据存储集成,从而支持统一的监管和轻松的数据移动。借助 AWS 上的现代数据架构,客户可以快速构建可扩展的数据湖,使用丰富且专业的专用数据服务,通过统一的数据访问、安全性和治理确保合规,在不降低性能的前提下以低成本扩展系统,并轻松跨越组织边界共享数据,从而快速、敏捷、大规模地作出决策。

为何需要现代数据架构
数据量在以前所未有的速度增长,从 TB 级暴增至 PB 级,甚至 EB 级。传统的本地数据分析方法不具有充分的扩展能力,同时价格太贵,无法处理这样大量的数据。许多企业从多个孤岛提取所有的数据,然后将这些数据集中在一个位置(许多人将之称为数据湖),从而直接对这一数据进行分析和机器学习处理。而在另一些时候,这些企业将其他数据存储在专用数据存储中,用于分析并从结构化和非结构化的数据中快速获取见解。由于数据有重力,这种数据的移动方向可能是“由内向外”、“由外向内”、“沿周界”或者“跨界共享”。
-
从内向外
-
由外向内
-
沿周界
-
跨界共享
-
数据重力
-
从内向外
-
由内向外的数据移动
客户将数据存储在数据湖中,然后将其中的部分数据移动到某个专用数据存储以执行额外的机器学习或分析处理。
示例:来自 Web 应用程序的点击流数据可能会直接在数据湖中采集 ,然后将其中的一部分移动到某个数据仓库以满足每日报告之用。我们将这种概念称为由内向外的数据移动。
-
由外向内
-
由外向内的数据移动
客户将数据存储在数据仓库或数据库等专用数据存储中,然后将该数据移动到某个数据湖中以进行分析。
示例:客户从数据仓库中将给定地区产品销售的查询结果复制到他们的数据湖中,以使用机器学习对更大的数据集运行产品推荐算法。
-
沿周界
-
沿周界移动数据
将数据湖、数据仓库和专用数据存储无缝集成。
示例:客户可能将存储在其数据库中的产品目录数据复制到搜索服务中,以方便通过产品目录查询,并从该数据库下载搜索查询。
-
跨界共享
-
跨界共享式数据移动
客户使用现代数据架构来支持跨越逻辑或物理治理边界的治理和数据共享,从而建立符合业务线要求的数据域。
-
数据重力
-
数据重力
随着这些数据湖和专用存储中的数据量持续增长,由于数据具有重力,移动所有这些数据将变得越来越困难。而确保可以方便地将数据移动到需要的任何位置,具备恰当的控制,以支持分析和获取见解也同样重要。
现代数据架构支柱
企业从多个孤岛提取数据,然后将这些数据集中在一个位置,从而对这一数据进行分析和机器学习处理。为发挥数据的最大价值,客户需要采用现代数据架构,以便在数据湖和专用数据存储之间轻松移动数据。这种先进的架构要求:
-
可扩展的数据湖
成千上万的客户在 AWS 上运行其数据湖。
目前,数据湖的设置和管理涉及大量耗时的手动任务。AWS Lake Formation 可将这些任务自动化,从而让您能够在数天内构建和保护数据湖,不再需要数月时间。对于您的数据湖存储,Amazon S3 是构建数据湖的理想选择,原因包括:它具有无与伦比的 99.999999999%(11 个 9)持久性和 99.99% 可用性;提供对象级别审计日志和访问控制,具有极佳的安全性、合规性和审计功能;提供五个存储层,具有极佳的灵活性;价格极低,每 TB 每月低至不到 1 美元。
-
专用分析服务
AWS 提供最广泛、最深入的专用分析服务组合,可针对您独特的分析使用案例进行优化。
这些服务全部依据最高的标准设计,让您在使用这些服务时无需在性能、规模和成本方面作出妥协。例如,Amazon Redshift 的速度比其他云数据仓库快 3 倍,但价格至少便宜 50%。Amazon EMR 上的 Spark 运行速度比标准 Apache Spark 3.0 快 1.7 倍,并且您能够以不到传统本地解决方案一半的成本运行 PB 级分析。
-
统一的数据访问
随着数据湖和专用数据存储中的数据量不断增长,您通常需要能够轻松地将一部分数据从一个数据存储移动到其他数据存储。
AWS 让您能够轻松地跨多个数据存储和数据湖合并、移动和复制数据。例如,AWS Glue 可提供全面的数据集成功能,使您可以轻松地发现、准备和合并数据,用于分析、机器学习和应用程序开发,而 Amazon Redshift 则可以轻松在 S3 数据湖中查询数据。这种能够轻松将数据大规模移动到最需要的位置的能力远超所有其他分析提供商。
-
统一监管
现代化分析架构最重要的因素之一是客户授权、管理和审计数据访问的能力。
这可能非常具有挑战性,因为管理组织中所有数据存储的安全性、访问控制和审计跟踪过程非常复杂,而且很耗时并容易出错。AWS 为客户提供了相应的治理功能,可以从单个位置管理对数据湖以及专用数据存储的所有数据的访问。AWS Lake Formation 让客户能够集中定义和管理安全性、治理和审计策略,从而对整个企业的数据共享进行统一的访问控制。
-
高性能和经济高效
AWS 致力于以最低的成本为所有分析服务提供最佳性能,并坚持不断创新以提高我们服务的性价比。
除为分析服务提供行业领先的性价比外,对于存储在数据湖中的数据,我们的 S3 智能分层功能可帮助客户最高节省 70% 的数据存储成本,而 Amazon EC2 提供超过 200 种实例类型选择、高达 100Gbps 的网络带宽,并且可选择按需实例、预留实例和 Spot 实例等不同的购买方式,处于行业领先水平。
更多客户利用 AWS 上的现代数据架构,而不是其他平台
-
宝马集团
-
为加速创新并大规模实现数据使用的民主化,宝马集团将其本地数据湖迁移到由 Amazon S3 提供支持的数据湖;现在宝马集团可以每天处理来自上百万辆汽车的 TB 级遥测数据,并在问题影响到客户之前解决问题。
-
Nielsen
-
Nielsen 是全球领先的测量和数据分析公司,通过利用现代化的云技术大幅提高了每天可以提取、处理以及向客户报告的数据量。该公司的处理能力从每天服务 4 万个家庭增加到超过 3000 万个家庭。
-
Engie
-
ENGIE 是法国最大的公用事业公司之一,在 70 个国家和地区拥有 16 万名员工和 40 个业务部门。该公司的公共数据中心(Common Data Hub)拥有近 100TB 的数据湖,使用 AWS 服务来满足其业务部门的数据科学、市场营销和运营需求。
合作伙伴
了解我们的合作伙伴如何帮助组织在 AWS 上的构建现代数据架构。

Alluxio Data Orchestration
Alluxio Data Orchestration 让客户能够更好地利用 EMR 和 S3 等关键 AWS 服务以执行分析和人工智能(AI)工作负载。