亚马逊AWS官方博客

通过 AWS Analytics 充分发掘数据的力量

Original Link: https://aws.amazon.com/cn/blogs/big-data/harness-the-power-of-your-data-with-aws-analytics/

2020年的种种变化,让我们再次意识到敏捷性的重要意义。随着新冠疫情的全面爆发,我们接触到的每家客户都着手推进自己的应对之策。部分公司决定努力提高运营效率,有些企业甚至在疫情期间获得了可观的业务增长。总体而言,我们发现组织在面对严峻变化时,普遍希望借助数据的力量快速做出良好决策。要获得这样的敏捷性优势,他们需要将TB、PB甚至是EB级别的数据集成起来,借此建立起覆盖客户及业务运营体系的完整视图。传统的本地数据分析解决方案显然无法支撑起如此庞大的处理规模,为了突破扩展性与资源成本的桎梏,各组织开始更积极地推动云迁移,由此迈出数据与分析基础设施现代化的前进脚步。

真实世界中的客户数据

为了分析海量数据,许多企业开始将所有数据从各个仓库转移至统一位置(通常称为数据湖),在此执行数据分析与机器学习(ML)。他们也会将数据存储在专门构建的存储方案(比如数据仓库等)之内,由此为特定应用场景提供必要的性能、规模与成本优势。此类数据存储方案涵盖数据仓库(适合针对结构化数据通过复杂查询快速获取结果)以及Elasticsearch(适合快速搜索并分析日志数据,借此监控生产系统的运行状态)等多种具体技术。很明显,一成不变的单一数据分析方法将不可避免地对功能有所取舍,灵活多变的实现途径才是通往业务敏捷的理想道路。

为了从数据湖及专门构建的存储中获取最大收益,客户要求能够在不同系统之间轻松移动数据。例如,客户希望将来自Web应用程序的点击流数据直接收集在数据湖内,并将其中部分数据移至数据仓库以生成每日报告。我们将这种用例,总结为由内而外的数据移动操作。

同样的,客户有时候需要由外而内进行数据移动。例如,他们希望将特定区域内的产品销售查询结果从数据仓库复制到数据湖内,进而使用机器学习对大规模数据集运行产品推荐算法。

最后,客户还可能要求将数据在不同的专用数据存储方案之间往来移动,即周边移动。例如,他们可以将存储在数据库内的产品目录数据复制到搜索服务当中,将原本极耗资源的数据库搜索查询转化为轻松易行的产品目录浏览操作。

随着数据湖与专门构建的存储方案中数据量的不断增长,数据的往来移动操作变得越来越困难。我们将此称为“数据重力”。

为了快速灵活地做出决策,客户必须顺畅应用中央数据湖与围绕该湖建立的专用数据闭环。此外,他们还需要以安全且受控的方式在不同数据存储方案之间快速移动数据,借此确定数据的重要程度。

为了满足这些需求,客户需要一套能够支持以下目标的数据架构:

  • 快速构建起可扩展的数据湖。
  • 丰富而且功能强大的专门构建的数据服务集合,这些数据服务可以为交互式仪表板与日志分析等提供必要的性能支持。
  • 在数据湖及各专门构建的数据服务之间实现数据的无缝化移动。
  • 通过统一方式加以保护、监控与管理,保证数据访问活动的合规性。
  • 以低成本方式扩展系统,保证不对性能产生负面影响。

我们将这种现代分析方法,称为“Lake House架构”。

AWS上的Lake House架构

Lake House架构的基本思路,认为任何一种号称“万能”的分析方法终会带来与预期相冲突的妥协。换言之,我们不是简单粗暴地将数据湖与数据仓库集成起来,而是把数据湖,数据仓库,以及其他一些专门构建(purpose-built)的数据存储方案集成起来,赋予统一管理与轻松灵活的数据移动。下图所示,为AWS上的Lake House架构。

下面来看AWS上的Lake House架构,以及我们在Re: Invent 2020大会上公布的一系列新功能,将如何帮助我们的客户满足以上各项要求。

可扩展数据湖

Amazon Simple Storage Service (Amazon S3) 之所以成为构建数据湖的最佳场所,凭借的正是其无与伦比的持久性、可用性与可扩展性,出色的安全性、合规性与审计功能,以最低成本提供最强性能的自身定位,丰富的数据导流方法,以及广泛的合作伙伴集成范围。

但是,数据湖的设置与管理往往涉及诸多手动且极为耗时的操作,例如从不同来源处加载数据、监控数据湖、设置分区、启用加密并管理密钥、将数据重整为列格式,以及对访问进行授权与审计等等。为了帮助简化这个过程,我们开发出AWS Lake Formation。Lake Formation可以帮助我们的客户将云端安全数据湖的构建周期由几个月缩短至数天。Lake Formation能够从数据库及对象存储中收集并分类数据,将数据移动到Amazon S3数据湖内,使用机器学习算法清理并分类数据,同时保护指向敏感数据的访问活动。

除此之外,我们还在AWS Lake Formation中发布了三项新的功能预览版:ACID事务、用于并发更新与查询结果一致性的受监管表(governed table)、以及用于实现查询加速的自动文件压缩功能。这些预览版引入了新的API,可通过受监管表这种新的数据湖表类型支持原子性、一致性、隔离性与持久性(ACID)事务。受监管表允许多位用户同时跨表插入、删除并修改各行,同时允许其他用户在同一数据集上并发运行分析查询与机器学习模型。此外,自动文件压缩则负责将小型文件合并为大型文件,借此将查询速度提高达7倍。

专门构建的(Purpose-built)分析服务

AWS提供最具深度与广度的专门构建的分析服务组合,具体涵盖Amazon AthenaAmazon EMRAmazon Elasticsearch ServiceAmazon Kinesis以及 Amazon Redshift。这些服务全部采用行业领先的设计与构建方法,可保证客户在使用过程中不必在性能、规模或成本之间做出任何妥协。例如,Amazon Redshift的性能价格比可达任何其他云数据仓库的3倍,而EMR上Apache Spark的运行速度则达到标准Apache Spark 3.0的1.7倍,因此您可以在PB级别的超大规模数据分析中将成本控制在传统本地解决方案的一半以下。

我们一直在努力创新,通过专门构建的服务中的各项新功能满足客户需求。例如,为了帮助大家进一步节约成本并提升部署灵活性,我们宣布Amazon EMR on Amazon Elastic Kubernetes Service (EKS)正式迎来通用版本。其在Amazon EKS上提供完全托管的全新Amazon EMR部署选项。在此之前,客户只能选择在EC2上运行托管Amazon EMR,或者在Amazon EKS上自行管理Apache Spark。如今,您可以将分析工作负载与微服务、乃至其他基于Kubernetes的应用整合在同一套Amazon EKS集群之上,借此提高资源利用率、简化基础设施管理流程并通过统一的工具组合加以监控。

为了进一步增强数据仓库性能,我们还公布了Automatic Table Optimizations (ATO) for Amazon Redshift. 的通用版本。ATO通过机器学习技术自动执行优化任务(例如设置分发键与排序键),借此简化Amazon Redshift数据仓库的性能调优过程,在消除手动操作的同时提供最佳性能表现。

我们还公布了Amazon QuickSight Q 的预览版本,帮助业务用户轻松便捷地从数据中提取洞见。QuickSight Q使用机器学习生成一套数据模型,此模型能够自动理解业务数据之间的含义与关系。在它的帮助下,用户能够以人类自然语言直接询问关于业务数据的即席问题,并在几秒钟内获取准确答案。以此为基础,业务用户能够即时获取问题答案,而不必等待由精益人员组成的商务智能(BI)团队进行繁琐缓慢的建模工作。

无缝数据移动

由于数据存储在多个不同系统中,客户自然需要轻松在一切服务及数据存储方案之间(包括由内而外、由外而内以及周边移动)进行数据迁移。没有哪家分析服务商能够像AWS这样将数据大规模迁移至最需要的位置——AWS Glue 是一项无服务器数据集成服务,可帮助您轻松准备数据以进行分析、机器学习与应用程序开发。AWS Glue提供数据集成所需要的全部功能,可以在几分钟(而非以往的几个月)内获取洞见结论。Amazon Redshift与Athena还支持联合查询,可以跨多种存储方案在运营数据库、数据仓库以及数据湖间对数据执行查询,无需任何数据移动即可提供跨数据湖洞见,消除了设置并维护复杂的提取、转换与加载(ETL)管道的需求。

为了进一步降低跨多种数据存储方案的数据合并与复制门槛,上周我们还公布了AWS Glue Elastic Views的预览版本。AWS Glue Elastic Views使开发人员可以使用熟悉的SQL在多种数据库及数据存储方案内创建物化视图,借此将跨数据存储方案进行数据合并与复制的周期从几个月缩短至几分钟。AWS Glue Elastic Views还能够处理从源数据存储到目标数据存储的数据合并与复制操作,持续监控源数据存储内的变更,并自动更新物化视图以确保用户始终能够访问到最新数据。

我们还公布了Amazon Redshift数据共享功能的预览版本。数据共享提供一种安全、便捷的方法,能够跨组织内部及外部的多个Amazon Redshift集群共享实时数据,彻底消除数据复制或移动带来的复杂性因素。客户可以通过数据共享功能沿用单计算集群内的数据分析方法,借此满足各项工作负载的性能要求并跟踪每个业务小组的使用情况。例如,客户可以建立一套中央ETL集群,并与多个商务智能集群共享数据以建立工作负载隔离与成本独立计算的机制。

统一治理

现代分析架构中的一大核心,在于对数据访问活动进行授权、管理及审计的能力。但这种能力的实现往往非常困难,因为跨组织内各类数据存储方案进行安全管理、访问控制与审计跟踪往往复杂且耗时。另外,这类方法也极易出错,因为它要求我们在全部存储系统中手动维护访问控制列表与审计策略,而不同的存储系统往往又有着不同的安全性、数据访问与审计要求。

凭借集中访问控制与策略,辅以列与行层级的过滤等功能,AWS为客户带来细粒度访问控制与治理选项,能够立足单一控制点对跨数据湖及专用数据存储系统的访问行为进行全面管理。

今天,我们还公布了AWS Lake Formation行级安全功能的预览版本,希望降低人员及应用程序在共享数据时的安全保障难度。行级安全功能允许用户在行层级上过滤并设置数据访问策略。例如,您现在可以设置一项策略,确保区域销售经理只能访问其所在区域内的销售数据。这一层级的过滤功能,意味着我们不必为不同的用户组维护不同的数据湖表副本,极大节约了运营开支并消除了不必要的存储成本。

性能与成本效益

在AWS,我们致力于在所有分析服务中以最低成本提供最佳性能,并通过创新不断提高服务性价比。除了Amazon Redshift与Amazon EMR等行业领先的服务之外,Amazon S3还具备智能分层选项,可帮助客户将数据湖内的数据存储成本降低达40%。此外,Amazon EC2则提供多达350种实例类型,最高400 Gbps以太网连接,以及在按需、预留及竞价实例之间灵活选择并切换的能力。2020年10月,我们宣布Amazon EMR正式支持搭载AWS Graviton 2处理器的Amazon EC2 M6g实例,其在将成本降低达35%的同时,将性能提升达15%。我们的客户也可以使用AWS Savings Plans中的灵活定价模型,借此将AWS计算资源成本削减达72%。

为了给新的数据处理规模奠定坚实基础,我们上周还发布了面向全体客户的AQUA (Advanced Query Accelerator) for Amazon Redshift 预览版本,并计划在2021年1月全面上线。AQUA是一种新的分布式硬件加速型缓存,能够将计算与存储层相融合,借此实现10倍于其他云数据仓库的查询性能。AQUA可在Amazon Redshift RA3实例上免费使用,客户无需任何代码变更即可直接享受AQUA带来的性能改进。

了解更多并立即体验

无论客户希望以怎样的方式使用数据,AWS Analytics都可提供相应的解决方案。我们提供最具广度及深度的专用分析服务组合,帮助您快速构建起Lake House架构。我们的产品组合包含可扩展性极高的数据湖、专用分析服务、无缝数据移动与统一治理机制,而且全部以成本极低、性能极强的形式向您交付。

感兴趣的朋友请参阅AWS re:Invent 2020大会上AWS re: Invent新增功能中的Analytics公告,并通过以下链接申请使用各项分析服务的预览版本。此外,您也可以参考AWS re:Invent 2020大会上的40多项分组讨论以深入了解特定议题。您可以访问研讨目录并选择Analytics列表以回顾过往会议,并将后续即将召开的新议程添加至日历当中。

最后,我们推荐您体验AWS数据实验室。AWS数据实验室旨在帮助客户使用AWS技术资源快速参与并加速各类数据与分析现代化项目。

公告与预览链接

本篇作者

Rahul Pathak

AWS公司Analytics副总裁,负责领导Amazon Athena、Amazon Elasticsearch Service、EMR、Glue、Lake Formation以及Redshift等多个项目。在九年的AWS职业生涯中,他专注于托管数据库、分析与数据库服务等技术方向。Rahul拥有超过二十年的技术从业经验,曾先后参与创立两家企业,一家专注于数字媒体分析、另一家专注于IP地理位置。他拥有麻省理工学院计算机科学学士学位与华盛顿大学EMBA学位。