什么是智能湖仓方法?

将数据湖、数据仓库和专用数据存储无缝集成

智能湖仓方法 – 工作原理

智能湖仓方法承认,所谓放之四海而皆准的分析方法最终会导致皆不准。智能湖仓方法不是简单地将数据湖和数据仓库糅合在一起,而是将数据湖、数据仓库和专用数据存储集成,从而支持统一的监管和轻松的数据移动。借助 AWS 上的智能湖仓架构,客户可以将数据存储在数据湖中,并使用有关数据湖的多种专用数据服务,从而快速、敏捷地作出决策,并获得市场中无可比拟的规模和性价比。

智能湖仓架构需要客户:

  • 快速构建可扩展的数据湖
  • 使用广泛深入的专用数据服务组合
  • 通过统一的方法来保护、监控和管理对数据的访问,从而确保合规性
  • 以低成本扩展系统,但同时不降低性能
工作原理 – 智能湖仓方法

为什么需要使用智能湖仓方法?

数据量在以前所未有的速度增长,从 TB 级暴增至 PB 级,甚至 EB 级。传统的本地数据分析方法不具有充分的扩展能力,同时价格太贵,无法处理这样大量的数据。许多企业从多个孤岛提取所有的数据,然后将这些数据集中在一个位置(许多人将之称为数据湖),从而直接对这一数据进行分析和机器学习处理。而在另一些时候,这些企业将其他数据存储在专用数据存储中,用于分析并从结构化和非结构化的数据中快速获取见解。由于数据有重力,这种数据的移动方向可能是“由内向外”、“由外向内”或者“沿周界”。

  • 从内向外
  • 由外向内
  • 沿周界
  • 数据重力
  • 从内向外
  • 由内向外的数据移动

    客户将数据存储在数据湖中,然后将其中的部分数据移动到某个专用数据存储以执行额外的机器学习或分析处理。

    示例:来自 Web 应用程序的点击流数据可能会直接在数据湖中采集 ,然后将其中的一部分移动到某个数据仓库以满足每日报告之用。我们将这种概念称为由内向外的数据移动。

    由内向外的数据移动
  • 由外向内
  • 由外向内的数据移动

    客户将数据存储在数据仓库或数据库等专用数据存储中,然后将该数据移动到某个数据湖中以进行分析。 

    示例:客户从数据仓库中将给定地区产品销售的查询结果复制到他们的数据湖中,以使用机器学习对更大的数据集运行产品推荐算法。

    由外向内的数据移动
  • 沿周界
  • 沿周界移动数据

    将数据湖、数据仓库和专用数据存储无缝集成。 

    示例:客户可能将存储在其数据库中的产品目录数据复制到搜索服务中,以方便通过产品目录查询,并从该数据库下载搜索查询。

    由外向内的数据移动
  • 数据重力
  • 数据重力

    随着这些数据湖和专用存储中的数据量持续增长,由于数据具有重力,移动所有这些数据将变得越来越困难。而确保可以方便地将数据移动到需要的任何位置,具备恰当的控制,以支持分析和获取见解也同样重要。

    数据重力

智能湖仓方法的支柱

企业从多个孤岛提取数据,然后将这些数据集中在一个位置,从而对这一数据进行分析和机器学习处理。为发挥数据的最大价值,客户需要采用智能湖仓的方法,以便在数据湖和专用数据存储之间轻松移动数据。这种先进的架构要求:

更多客户在 AWS 上建立智能湖仓架构,而不是在其他位置

  • lake_house_customers_logo_bmw
  • lake_house_customers_logo_nielsen
  • lake_house_customers_logo_engie
  • 宝马集团
  • 宝马集团
    宝马集团

    为加速创新并大规模实现数据使用的民主化,宝马集团将其本地数据湖迁移到由 Amazon S3 提供支持的数据湖;现在宝马集团可以每天处理来自上百万辆汽车的 TB 级遥测数据,并在问题影响到客户之前解决问题。

    查看案例分析 
  • Nielsen
  • Nielsen
    Nielsen

    Nielsen 是全球领先的测量和数据分析公司,通过利用现代化的云技术大幅提高了每天可以提取、处理以及向客户报告的数据量。该公司的处理能力从每天服务 4 万个家庭增加到超过 3000 万个家庭。

    查看案例分析 
  • Engie
  • Engie
    lake_house_customers_logo_engie

    ENGIE 是法国最大的公用事业公司之一,在 70 个国家和地区拥有 16 万名员工和 40 个业务部门。该公司的公共数据中心(Common Data Hub)拥有近 100TB 的数据湖,使用 AWS 服务来满足其业务部门的数据科学、市场营销和运营需求。

    查看案例分析 

合作伙伴

了解我们的合作伙伴如何帮助企业使用智能湖仓的方法在 AWS 上建立现代化的数据架构。

Cloudera

Cloudera

在 AWS 上运行 Cloudera Enterprise 可为 IT 部门和业务用户提供一个数据管理平台,以作为现代化数据处理和分析的基础。

了解更多 »

Informatica Cloud

Informatica Cloud

Informatica Cloud 通过与 100 多个应用程序的原生连接优化了与 AWS 数据服务的集成。

了解更多 »

Dataguise

Dataguise

Dataguise 是安全业务执行方面的领导者,提供以数据为中心的安全解决方案,该解决方案可以检测和保护企业的敏感数据,无论数据位于何处或需要由谁使用。

了解更多 »

Alluxio Data Orchestration

Alluxio Data Orchestration

Alluxio Data Orchestration 让客户能够更好地利用 EMR 和 S3 等关键 AWS 服务以执行分析和人工智能(AI)工作负载。

了解更多 »

入门

AWS Data Driven Everything 计划

AWS Data-Driven Everything
通过 AWS Data-Driven EVERYTHING(D2E)计划,AWS 将与客户携手以更快地行动,以更好的精确性和远远更为宽广的范围启动您自己的数据飞轮。

了解更多 »

AWS Data Lab

AWS Data Lab
AWS Data Lab 在客户和 AWS 技术人员之间建立加速的联合工程协作,旨在创建可加速数据和分析现代化举措的切实可交付成果。

了解更多 »

AWS 分析和大数据参考架构

AWS 分析和大数据参考架构
了解 AWS 上的云数据分析、数据仓库和数据管理架构最佳实践。

了解更多 »