跳至主要内容

Amazon SageMaker 的湖仓架构

使用统一、开放、安全的数据架构,简化分析和人工智能

概述

下一代 Amazon SageMaker 是基于开放的湖仓架构而构建的,与 Apache Iceberg 完全兼容。统一 Amazon Simple Storage Service(Amazon S3)数据湖(包括 S3 表类数据存储服务)和 Amazon Redshift 数据仓库中的全部数据,帮助您在单个数据副本上构建强大的分析和人工智能/机器学习应用程序。使用所有与 Apache Iceberg 兼容的工具和引擎,灵活地就地访问和查询数据。通过定义精细权限来保护您的数据,这些权限将应用于所有分析和机器学习(ML)工具和引擎。通过零 ETL 集成,近乎实时地将运营数据库和应用程序中的数据导入到湖仓中。此外,对存储在多个第三方来源的数据执行联合查询,以便就地访问和查询数据。

查看实际应用

查看如何在开放、安全的数据湖仓中访问来自 S3 数据湖、S3 表类数据存储服务和 Redshift 数据仓库的统一数据。

Missing alt text value

优势

统一 Amazon S3 数据湖(包括 S3 表类数据存储服务)和 Amazon Redshift 数据仓库中的全部数据。通过零 ETL 集成,近乎实时地将运营数据库和应用程序中的数据导入到湖仓中。您可以使用数百个连接器,整合来自各种来源的数据。此外,您也可以通过跨第三方数据来源的联合查询功能来访问和查询数据。

使用所有与 Apache Iceberg 兼容的分析工具和引擎,例如 SQL、Apache Spark、商业智能(BI)和人工智能/机器学习工具,灵活地就地访问和查询数据,以便访问湖仓中的统一数据。

使用集成的精细访问控制来保护您的数据,这些控制将应用于所有分析工具和引擎中的全部数据。定义一次权限,即可在组织内放心地共享数据。

使用案例

使用单个数据副本,统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的全部数据,以便执行您的分析和人工智能计划。借助集成的访问控制,您可以定义精细权限,并在整个组织内安全地共享单个数据副本。

通过零 ETL 集成,近乎实时地访问运营数据库和应用程序的数据。通过各种 AWS 服务以及支持 Apache Iceberg 的开源和第三方工具和引擎,就地访问和查询数据。

将多个 Amazon Redshift 数据仓库中的现有数据导入到湖仓中,以便查询和合并存储在 Amazon Redshift 集群和工作组中的数据。无需管理多个数据共享,即可扩展工作负载,以便执行提取、转换、加载(ETL)流程、商业智能报告和按需分析。

客户

Lennar

“过去 18 个月里,我们一直在与 AWS 合作,将我们的数据基础转变为使用经济高效的一流解决方案。随着 Amazon SageMaker 融通式合作开发工作室和 Amazon SageMaker 智能湖仓等高级功能的推出,我们希望通过无缝访问数据和服务来加快交付速度,从而让我们的工程师、分析师和科学家能够发现为业务提供物质价值的见解。”

Lennar 的数据和分析高级副总裁 Lee Slezak

Missing alt text value

罗氏

罗氏是全球领先的制药和诊断公司,专注于改善人类生命的科学。

“我们一直在使用 Amazon Redshift,以便从所有数据存储库的结构化和半结构化数据中获取洞察。借助 Amazon Redshift、AWS Glue Data Catalog 和 AWS Lake Formation 等服务,新的 Amazon SageMaker 智能湖仓能够增强和统一对数据湖或其他数据来源的访问,这令我兴奋不已。借助这项创新,我们的数据和工程团队能够简化数据访问,以促进数据、分析和应用程序工作负载之间的互操作性。我预计这项功能可以通过减少数据复制显著减少数据错误、缩短 40% 的处理时间,加快将分析数据写回事务处理系统的速度以改进决策,让我们的团队能够专注于创造业务价值。”

罗氏的全球产品战略工程主管 Yannick Misteli

The logo of Roche, featuring the company name in a blue outlined hexagonal shape on a transparent background.

Idealista

Idealista 可提供在线房地产分类平台,以支持南欧地区的房地产经纪人和个人。

“我们的目标是简化对 Salesforce 数据的访问,以增强数据湖中的分析。Amazon SageMaker 智能湖仓新增了一项支持,允许从应用程序特征进行零 ETL 集成,这样,我们就可以简化数据提取和摄取流程,无需执行多次 ETL 即可直接访问 Salesforce。这种集中式方法可以降低复杂性,并显著提高我们的数据管理效率。我们预计在数据提取和摄取开发方面将节省大量时间,让我们的团队能够专注于从数据中获取切实可行的洞察,而不是管理数据的收集。”

Idealista 的数据平台工程师经理 Javier Monterrubio

The word 'idealista' written in a minimalist, pixelated black font on a white background.

Carrier

“在 Carrier,下一代 Amazon SageMaker 正在简化我们构建和扩展数据产品的方式,从而改变我们的企业数据战略。SageMaker 融通式合作开发工作室采用数据发现、处理和模型开发方法,显著加速了我们的湖仓实施。最令人印象深刻的是,它与我们现有的数据目录和内置治理控制措施无缝集成,这样一来,我们就能够在维持安全标准的同时普及数据访问,从而帮助我们的团队在整个企业中快速提供高级分析和人工智能解决方案。”

Missing alt text value

合作伙伴

Tableau

Tableau 可以帮助个人和组织更加以数据为导向。

“Amazon 和 Salesforce Tableau 之间的合作伙伴关系代表着对创新和客户成功的共同承诺。通过 Amazon 全新的零 ETL 集成,我们将由人工智能提供支持的 Tableau 数据和分析与 Amazon 强大的数据基础设施相结合,以改变组织从数据中获取洞察的方式。这种无缝集成让我们的客户能够利用 Amazon SageMaker 智能湖仓和 Amazon Redshift 的强大功能,从其所有结构化和非结构化数据中获取洞察,从而大幅降低工程复杂性并缩短部署时间。Tableau 和 Amazon 正在共同帮助客户加速数字化转型,并大规模提升业务价值。”

Tableau 的高级分析高级副总裁 Ali Tore

The Tableau logo featuring a multicolored icon and the word 'Tableau' in blue text.

dbt Labs

dbt Labs 的使命是帮助分析人员创建和传播组织知识。

“长期以来,我们一直采用基于 Amazon Redshift 的转换标准,这项服务提供了灵活性、协作和信任。借助全新的 Amazon SageMaker 智能湖仓,我们很高兴能够将这一价值扩展到更多客户和 AWS 环境中的更多数据。现在,客户可以通过 AWS 系统访问其所有数据,包括数据仓库和数据湖。我们很高兴将我们的功能与全新的 Amazon SageMaker 结合使用,从而为我们的共同客户提供治理、编目和数据优化。”

dbt Labs 的合作伙伴关系副总裁 Shawn Toldo

The logo for Amazon SageMaker, featuring a stylized orange and black design.

Informatica

Informatica 是企业人工智能驱动的云数据管理领域的领导者,通过帮助企业实现其最关键资产的变革能力,将数据和人工智能变为现实。

“我们的智能数据管理云(IDMC)平台和 Amazon SageMaker 帮助组织释放数据潜力并推动创新,提高效率。作为 Amazon SageMaker 智能湖仓的启动合作伙伴,我们很荣幸能提供符合现代化数据驱动型组织高标准的企业级解决方案。再加上 AWS 的基础设施,我们可以更快地做出更明智的决策,从而在各行各业取得有影响力的成果。”

Informatica 的产品管理高级副总裁 Pratik Parekh

Logo of Informatica, featuring an orange geometric icon and the word 'Informatica' in black text.