亚马逊AWS官方博客

通过数据湖利用好数据资产

“数据流就是企业的血液流。”

AWS 首席执行官 Andy Jassy在re:Invent技术大会主题演讲中,围绕着转型从六个方面做了阐述:1、领导层协调一致;2、技术的深度和广度;3、架构和应用的现代化;4、规模化使用数据;5、采用机器学习创新;6、突破云迁移的阻碍。 今天我和您分享第四部分,讲述企业在数字化转型的过程中,如何通过向云迁移利用好企业的数据资产满意度。

随着时间公司会积累大量历史数据,这些数据通常存于不同的数据孤岛中。 传统上这些数据根据业务需要已进行格式定制,通过批处理加载到数据仓库中。 它们虽然可以用来做数据分析,但分析是个艰难、昂贵和缓慢的过程。当今移动互联网和社交应用产生的数据量呈指数成长,数据类型复杂多样。我们更哥好的数据平台将有关数据及时提供给各类应用,并需要对数据进行实时分析和预测分析。我们看看AWS云服务是如何存储数据和进行分析的。

 

数据库

AWS基于客户需求发展了各种专用数据库,帮助您将各类数据存到合适的数据库服务中。这些专用数据库有: Amazon RDS, Amazon Aurora,Amazon DynamoDB,Amazon ElastiCache,Amazon Neptune等,分别对应关系型、非关系键值性、内存中和图形数据等数据类型。

Amazon Aurora是云原生的与MySQL或PostgreSQL兼容的关系型数据库,它具有比开源数据库高3到5倍的性能,费用只是类似商业数据库的十分之一,推出后成为AWS上增长最快的服务。如果您运行快速并具有高吞吐量和低延迟的键值式存储,Amazon DynamoDB是很好的选择。如果您的工作负载需要微秒级以内的延迟,那么您可以使用支持Redis 或 Memcached的内存数据库Amazon ElastiCache。处理复杂关联的数据则可以使用Amazon Neptune图形数据库。以上这些云数据库服务都已在AWS中国区域提供。

在全球范围内AWS还发布了更多的专用数据库服务。 如果您使用物联网希望能够记录随时间的数据变化,我们构建了 Amazon Timestream基于时间序列的数据库。如果您希望拥有防篡改并且支持加密验证的分类账簿记录,您可以使用Amazon Quantum Ledger Database (QLDB)量子分类账数据库。如果您的公司在办公中需要用到大量文档记录,我们提供兼容 MongoDB 的 Amazon DocumentDB文档数据库。如果您大规模管理宽列数据,我们新推出了 Amazon Managed Apache Cassandra Service。

 

数据湖

为了解决针对迅速增加且类型繁多的实时数据的存储和分析的需求,数据湖脱颖而出成为当今数据平台和分析的主流。数据湖里可以存储未经处理的原始数据,这些数据包括表格、文本、声音、图像等多种格式。在数据湖中可以进行数据的处理、分析、建模、加工,处理后的数据仍然可以留在其中。这样的数据存储集具备庞大的数据存储规模、高级别的计算能力、满足多元化的数据信息交叉分析,以及大容量、高速度的数据管道。

在 Amazon S3 上构建的数据湖远超其他平台, 已成为用户建立数据湖的优选。选择 S3 作为数据湖基础有以下5个原因。首先,Amazon S3通过多可用区的架构,具有高可靠性、扩展性和可用性。其次,S3 是安全的数据存储,允许为存储对象在存储桶和账户级别进行访问管理。第三,它是提供多种方法将数据传输到其中,包括通过直连Amazon Direct Connect和网关Storage Gateway,流式传输Kinesis、物联网IoT、Snowball 设备等对数据进行输入加载。第四,AWS 让您能够自动化执行多种操作。例如,S3 Intelligent Tiering 使用机器学习支持的算法评估活跃对象和不频繁读写的对象,然后将相应对象移至较温或较冷的存储中,并相应地调整价格。再比如,S3 Batch Operations,该功能支持在数分钟内对数据执行操作。第五,S3 是低成本的选择,使用S3 Glacier Deep Archive 可进一步降低成本。

在过去的一个月,AWS Glue 和 Amazon Athena 两款跟数据湖密切相关的关键服务在由西云数据运营的AWS中国 (宁夏) 区域正式上线。AWS Glue 是与数据湖配合的一款重要的服务,它可以帮助用户建立起无服务器架构的数据目录和快速完成数据的抽取、转换和加载(ETL)的服务,自动发现数据并存储 Schema,与 AWS 上运行的 Aurora、RDS、Redshift、S3 和数据库引擎天然集成。Amazon Athena可以帮助客户使用标准SQL语言,交互式查询村雨Amazon S3数据湖中的数据。由于Athena是一种无服务器服务,因此客户不需要管理基础设施,只需为他们消耗的资源付费。

现在有很多客户拥有非常大的数据湖,管理所有需要访问的应用程序极具挑战性。为了简化此工作,我们宣布推出全新的 Amazon S3 Access Points,可从简化使用 S3 上共享数据集的应用程序的大规模数据访问管理。我们还推出了AWS Lake Formation这项全托管式服务,帮助客户在几天内轻松建立安全的数据湖。只需定义数据源,制定要应用的数据访问和安全策略,Lake Formation 就会从数据库和对象存储中收集并按目录分类数据,将数据移动到新的 Amazon S3 数据湖,使用机器学习算法清理和分类数据,并保护对敏感数据的访问权限。

 

数据分析

在上述数据湖三大元素构建的数据湖基础上,AWS提供了一系列的产品服务,来实现数据仓库、大数据处理、交互查询、运营分析、数据交换、可视化、实时分析、推荐和预测分析等功能,以达到从数据到信息到洞察再到行动的目标。围绕数据湖,您可以使用多样的分析服务来从数据中获得见解和洞察。

AWS 拥有众多的分析服务组合,您可以随时随地在云上方便的访问这些服务。您可以使用 Amazon Athena对非结构化数据进行互动查询, 使用 Amazon EMR以分布式框架的动态集群处理大量非结构化数据,使用 Amazon Elasticsearch Service搜索和分析大量日志数据以监控生产系统的运行状况,使用 Amazon Redshift对结构化数据执行超速查询,使用 Amazon Kinesis对实时流数据进行分析。以上这些功能都在中国区域正式发布。新近在中国区域还推出了Managed Streaming for Apache Kafka, 托管的卡夫卡数据流分析。您还可以使用 Amazon QuickSight或第三方产品实现可视化,使用SageMaker和嵌入式ML实现机器学习预测分析的功能。

我们一直在对这些分析服务持续创新以提供更多功能。仅在过去一年中我们就对 Redshift 增加了 100 多种功能,例如并发扩展,根据不可预测的需求动态自动添加和删除容量;  物化视图,可接受频繁的查询并执行预计算,缓存聚合和筛选条件,以便您的查询速度更快;  拥有Lake House (以前称为 Spectrum),允许您在 Redshift 中查询数据以及在 S3 中跨数据湖查询数据。通过新的 Redshift 联合查询功能,您可以跨 Redshift、S3 和我们的关系数据库服务(包括 Aurora Postgres)进行查询。当您完成查询并希望将这些数据集移回数据湖时,我们推出了一项Date Lake Export数据湖导出的功能帮助您实现。我们还发布将于2020推出适用于 Redshift 的高级查询加速器 (AQUA),通过硬件加速缓存,查询性能比其他云数据仓库解决方案提高10 倍。 借助具有托管存储的全新 Amazon Redshift RA3 实例,您可以针对各种数据仓库工作负载,以经济高效的方式分别扩展存储和计算。

目前全球和中国已有上万家企业使用AWS的数据湖服务,这些用户包含许多我们耳熟能详的名字。 AWS 数据湖解决方案的成功并非偶然。亚马逊作为全球最大的互联网公司之一,拥有独特的数据规模、数据复杂度、数据处理难度、和数据价值挖掘需求。背靠亚马逊电商,AWS 数据湖解决方案得到了不断的挑战和历练。 亚马逊内部一个叫Galaxy 的数据湖部署,存储了超过 50PB 的数据量,每天执行着多达 60 万项的数据分析任务。

在当今企业中,数据流就是企业的血液流,数字化转型重要的一个方向就是把数字化的资产利用好。数据湖在云计算时代快速发展,已经整合了数据库、数据仓库和数据分析等服务,成为企业数据体系的基础。欢迎您访问我们的网站或联系我们,进一步了解和使用AWS数据库、数据湖和分析服务。

 

本篇作者

张侠

AWS首席云计算企业战略顾问