什么是数据湖?

以任何规模将所有数据存储在一个集中式存储库中

什么是数据湖?

数据湖是一个集中式存储库,允许您以任何规模存储所有结构化和非结构化数据。您可以按原样存储数据,无需先结构化数据,并且可以运行不同类型的分析 – 从仪表板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

数据湖示意图

您为什么需要数据湖?

通过数据成功创造商业价值的组织将会比其同行做得更好。Aberdeen 调查显示,实施了数据湖的组织在整体营收增长方面优于同类公司 9%。这些领导者能够对存储在数据湖中的日志文件,来自点击流、社交媒体和互联网连接设备的数据等新来源进行机器学习等新类型的分析。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备并做出明智的决策,从而更快地识别和抓住业务增长机会。

数据湖与数据仓库相比 – 两种不同的方法

根据需求,典型的组织将同时需要数据仓库和数据湖,因为它们满足不同的需求和使用案例。

数据仓库是经过优化的数据库,用于分析来自交易系统和业务线应用程序的关系数据。预先定义数据结构和架构以优化快速 SQL 查询,其中结果通常用于运营报告和分析。对数据进行清理、丰富和转换,以便它作为用户可以信任的“单一事实来源”。

数据湖不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时未定义数据或架构的结构。这意味着您可以存储所有数据,而无需进行仔细的设计,也无需知道将来可能需要回答的问题。您可以对数据进行 SQL 查询、大数据分析、全文搜索、实时分析和机器学习等不同类型的分析来发现见解。

随着拥有数据仓库的组织看到数据湖的好处,他们在不断改进其数据仓库,以包含数据湖,并支持各种查询功能、数据科学使用案例,以及用于发现新信息模型的高级功能。Gartner 将此演变命名为“用于分析的数据管理解决方案”或“DMSA”。

特性 数据仓库 数据湖
数据 来自交易系统、运营数据库和业务线应用程序的关系 来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系
Schema 在 DW 实现之前设计(写入型 Schema) 在分析时写入(读取型 Schema)
性价比 较高成本的存储获得最快的查询结果 低成本存储获得较快的查询结果
数据质量
可作为重要事实依据的高度监管数据 任何可以或无法进行监管的数据 (例如原始数据)
用户 业务分析师 数据科学家、数据开发人员和业务分析师 (使用监管数据)
分析 批处理报告、BI 和可视化 机器学习、预测分析、数据发现和描述

数据湖和分析解决方案的基本元素

一些组织正在构建数据湖和分析平台,他们需要考虑许多关键功能,其中包括:

数据移动

数据湖允许您导入任意数量可实时进入的数据。数据收集自多个来源,并以其原始格式移动到数据湖中。此过程允许您扩展到任何大小的数据,同时节省定义数据结构、架构和转换的时间。

安全存储和编目数据

数据湖允许您存储来自操作数据库的关系数据,来自业务线应用程序的数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。它们还允许您通过数据抓取、编目和索引来理解湖中数据是什么。最后,必须确保数据安全,以确保您的数据资产得到保护。

分析

数据湖允许组织中的各种角色(如数据科学家、数据开发人员和业务分析师)通过他们选择的分析工具和框架访问数据。这包括诸如 Apache Hadoop、Presto 和 Apache Spark 等开源框架,以及来自数据仓库和商业智能供应商的商业产品。数据湖允许您运行分析,而无需将数据移动到单独的分析系统。

机器学习

数据湖将允许组织生成不同类型的见解,其中包括报告历史数据,对构建模型以预测可能的产出进行机器学习,并建议一系列规定的行动以实现最佳结果。

数据湖的价值

能够在更短的时间内利用来自更多来源的更多数据,从而使用户能够以不同的方式协同处理和分析数据,进而更快更好地制定决策。数据湖增加价值的示例包括:

改善客户互动

数据湖可以将来自 CRM 平台的客户数据与社交媒体分析,以及包含购买历史记录的营销平台和事件票证相结合,以帮助企业了解利润贡献最大的客户群体、客户流失的原因,以及增加忠诚度的促销活动或奖励。

改进研发创新选择

数据湖可以帮助您的研发团队测试其假设、完善假设并评估结果 – 例如在您的产品设计中选择合适的材料以提高性能,进行基因组研究以产生更有效的药物治疗,或者了解客户支付不同属性费用的意愿。

提高运营效率

物联网 (IoT) 引入了更多方法来收集关于制造等流程的数据,以及来自互联网连接设备的实时数据。数据湖可以轻松存储机器生成的 IoT 数据并运行分析,以发现降低运营成本和提高质量的方法。 

数据湖的挑战

数据湖体系结构面临的主要挑战是存储原始数据时不会审查内容。为了使数据可用,数据湖需要定义的机制来编目和保护数据。没有这些元素,就无法找到或者信任数据,从而导致产生“数据沼泽”。满足更多受众的需求要求数据湖具有监管、语义一致性和访问控制。

 

在云中部署数据湖

数据湖是非常适合部署在云中的工作负载,因为云提供性能、可扩展性、可靠性、可用性、多种分析引擎以及大规模经济。ESG 研究发现,39% 的受访者将云视为其分析的主要部署,41% 认为是数据仓库,43% 是 Spark。客户将云视为数据湖优势的首要原因是安全性更高、部署时间更短、可用性更好、功能更新更频繁、更具弹性、地理覆盖范围更广,而且成本与实际利用率相关。

 

在 AWS 上的云中构建数据湖

AWS 提供了最安全、可扩展、全面且经济高效的服务组合,使客户能够在云中构建自己的数据湖,使用包括机器学习在内的多种分析方法,分析所有数据,包括来自 IoT 设备的数据。因此,相比其他平台,更多组织选择在 AWS 上运行其数据湖和分析,包括客户 NETFLIX、Zillow、NASDAQ、Yelp、iRobot 和 FINRA,他们相信 AWS 能够运行其业务关键的分析工作负载。了解更多

数据湖上的更多资源

通过行业分析师详细了解数据湖。

AWS 入门

icon1

注册 AWS 账户

icon2

详细了解 AWS 上的数据湖

点击 此处阅读有关在 AWS 上部署数据湖的更多信息。在 此处观看有关构建数据湖的会议和大数据架构模式。观看客户会话了解他们如何构建数据湖,包括 FINRAAmazon.comRovioSysco Foods
icon3

开始使用 AWS 进行构建

数据上传到 Amazon S3,使用 AWS Glue 编目数据,然后使用 Amazon Athena 开始 查询数据。使用 Amazon Redshift Spectrum 运行 数据仓库查询,使用 Amazon EMR 运行 Hadoop 和 Spark,以及使用 Amazon Sagemaker 运行 机器学习
有 POC 并且希望和他人交流吗? 请联系我们或通过我们的 AWS 快速入门进行部署