什么是数据湖？

创建 AWS 账户

什么是数据湖？

数据湖是一个集中式存储库，允许您存储所有大小各异的结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

为什么需要数据湖？

通过数据成功创造商业价值的组织的表现明显优于同行。451 Research的一项调查显示，超过一半的受访企业今天已经实施了数据湖，另有22％的企业列举了在36个月内建立数据湖的计划。实施包括数据湖在内的现代数据架构的公司，在运营效率和收入增长方面表现出了可衡量的优势。这些领先企业在各种数据来源（包括实时流、IoT 传感器、社交媒体以及客户交互数据）中运用高级分析、人工智能和大型语言模型。这种全面的数据策略使他们能够更快地做出数据驱动的决策，实现客户体验个性化，通过预测性维护优化运营，并在竞争对手之前发现新的创收机会。

数据湖和分析解决方案有哪些基本要素？

组织构建数据湖和分析平台时，他们需要考虑许多关键功能，包括：

数据移动

数据湖允许您导入任何数量的实时获得的数据。您可以从多个来源收集数据，并以其原始形式将其移入到数据湖中。此过程允许您扩展到任何规模的数据，同时节省定义数据结构、Schema 和转换的时间。

安全地存储和编目数据

数据湖允许您存储关系数据（例如，来自业务线应用程序的运营数据库和数据）和非关系数据（例如，来自移动应用程序、IoT 设备和社交媒体的运营数据库和数据）。它们还使您能够通过对数据进行爬网、编目和建立索引来了解湖中的数据。最后，必须保护数据以确保您的数据资产受到保护。

分析

数据湖允许组织中的各种角色（如数据科学家、数据开发人员和业务分析师）通过各自选择的分析工具和框架来访问数据。这包括 Apache Hadoop、P rest o和Apac he Spark 等开源框架，以及数据仓库和商业智能供应商提供的商业产品。数据湖允许您运行分析，而无需将数据移至单独的分析系统。

阅读有关数据分析的信息 »

机器学习

数据湖将允许组织生成不同类型的见解，包括报告历史数据以及进行机器学习（构建模型以预测可能的结果），并建议一系列规定的行动以实现最佳结果。

阅读有关机器学习的信息 »

数据仓库与数据湖相比如何？

根据要求，典型的组织将需要数据仓库和数据湖，因为它们可满足不同的需求和使用案例。

数据仓库是一个优化的数据库，用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询，其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换，因此可以充当用户可信任的“单一信息源”。

了解数据仓库 »

数据湖有所不同，因为它存储来自业务线应用程序的关系数据，以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时，未定义数据结构或 Schema。这意味着您可以存储所有数据，而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析（如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习）来获得见解。

随着使用数据仓库的组织看到数据湖的优势，他们正在改进其仓库以包括数据湖，并启用各种查询功能、数据科学使用案例和用于发现新信息模型的高级功能。Gartner 将此演变称为“分析型数据管理解决方案”或“DMSA”。

要深入比较数据湖和数据仓库，请访问我们的数据湖与数据仓库的专用比较页面。

数据湖具有何种价值？

能够在更短的时间内从更多来源利用更多数据，并使用户能够以不同方式协同处理和分析数据，从而做出更好、更快的决策。数据湖具有增值价值的示例包括：

改善客户互动

数据湖可以将来自 CRM 平台的客户数据与社交媒体分析相结合，有一个包括购买历史记录和事故单的营销平台，使企业能够了解最有利可图的客户群、客户流失的原因以及将提升忠诚度的促销活动或奖励。

改善研发创新选择

数据湖可以帮助您的研发团队测试其假设，改进假设并评估结果 – 例如在产品设计中选择正确的材料从而提高性能，进行基因组研究从而获得更有效的药物，或者了解客户为不同属性付费的意愿。

提高运营效率

物联网 (IoT) 引入了更多方式来收集有关制造等流程的数据，包括来自互联网连接设备的实时数据。使用数据湖，可以轻松地存储，并对机器生成的 IoT 数据进行分析，以发现降低运营成本和提高质量的方法。

阅读有关物联网 (IoT) 的信息 »

数据湖面临哪些挑战？

数据湖架构的主要挑战是存储原始数据而不监督内容。对于使数据可用的数据湖，它需要有定义的机制来编目和保护数据。没有这些元素，就无法找到或信任数据，从而导致“数据沼泽”的出现。满足更广泛受众的需求需要数据湖具有管理、语义一致性和访问控制。

如何在云端部署数据湖？

数据湖是要在云中部署的理想工作负载，因为云提供性能、可扩展性、可靠性、可用性、各种分析引擎以及大型规模经济。451 Research 发现，66% 的受访者表示，公有云已成为或未来将成为其用于主要数据湖环境的对象存储环境。客户认为云作为数据湖的优势的主要原因是更好的安全性、更快的部署、更好的可用性、更频繁的特性/功能更新、更具弹性、更广的地理覆盖范围以及与实际利用率相关的成本。

AWS 如何支持您的数据湖要求？

AWS 提供最安全、可扩展、全面且经济高效的服务组合，使客户能够在云中构建数据湖，以及使用机器学习等各种分析方法分析所有数据，包括来自 IoT 设备的数据。因此，在 AWS 上运行数据湖和分析的组织越来越多，而且超过了其他任何地方信任 AWS 来运行其业务关键型分析工作负载的客户，如 NETFLIX、Zillow、NASDAQ、Yelp、iRobot 和 FINRA。

立即创建账户，开始在 AWS 上使用数据湖。

AWS 上的后续步骤

查看其他与产品相关的资源

查看云端分析服务的免费优惠

注册免费账户

立即享受 AWS Free Tier。

开始在控制台中构建

在 AWS 管理控制台中开始构建。

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

正在加载

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages