Amazon Redshift 湖仓一体架构

查询采用开放文件格式的所有数据。无需数据加载过程。

由物联网(IoT)、智能设备、云应用程序和社交媒体生成的数据量呈指数级增长。您需要想办法以轻松且经济高效的方式分析所有这些数据,在最短的时间内发掘见解,而不受数据的格式或数据存储位置的限制。

Amazon Redshift 为湖仓一体架构提供支持,让您能进行跨数据仓库、数据湖和运营数据库的数据查询,以前所未有的速度获得更深入的洞见。有了湖仓一体架构,您就能将数据以开放文件格式存储在 Amazon S3 数据湖中。通过这种方法,您就能轻松地将这些数据用于其它分析和机器学习工具,而不再会受制于数据被困在新的数据孤岛中这种问题。

通过 Amazon Redshift 湖仓一体架构,您可以:

  • 轻松地查询数据湖中的数据,并使用开放格式将数据写回数据湖中。
  • 使用熟悉的 SQL 语句,跨所有数据存储来合并和处理数据。
  • 对运营数据库中的实时数据执行查询,无需任何数据加载,更无需 ETL 管道。

2019 re:Invent 主题演讲:Amazon Redshift 湖仓一体架构(1:23)

功能

Amazon Redshift 湖仓一体架构由下列功能提供支持:

Amazon Redshift Spectrum

直接在 Amazon S3 数据湖中查询开放格式数据,无需加载数据或复制基础设施。使用 Amazon Redshift Spectrum 功能,您可以查询 Apache Parquet、ORC、JSON、Avro 和 CSV 等开放文件格式。按照此分步教程所教的步骤开始使用。

Data Lake Export

使用 Data Lake Export,将 Amazon Redshift 查询结果以开放文件格式(Apache Parquet)直接保存到 S3 数据湖中。然后,您还能够使用 Amazon Redshift Spectrum 功能以及其它 AWS 服务分析这些数据,例如使用 Sagemaker 进行机器学习,使用 EMR 执行 ETL 操作等。观看此 5 分钟视频然后开始使用。

联合查询

联合查询使得 Amazon Redshift 能够直接查询 Amazon RDS 和 Aurora PostgreSQL 存储中的数据。这使您能够及时地将最新运营数据纳入报告应用程序和 BI 应用程序中,而无需任何 ETL 操作。观看此 5 分钟视频或者阅览该教程然后开始使用。

华纳兄弟公司
“我们使用多种 AWS 分析工具和第三方分析工具,并且在自己的解决方案中使用了各种数据转换模式,我们很高兴地看到 Amazon Redshift 中沿用了相同的数据转换模式。自 2017 年以来,我们充分利用 Amazon Redshift 中 Redshift Spectrum 跨数据湖查询开放数据格式的功能。现在,借助新的 Redshift Data Lake Export 功能,我们可以方便地将数据写回数据湖。即使我们的查询负载达到最高,这些操作也能够稳定快速地完成。我们期待着进一步发挥综合大数据堆栈的协同作用,推动更多的跨 Amazon Redshift 集群的数据共享,并让所有游戏以更低的成本实现更多价值。”

Kurt Larson,分析营销运营技术总监,华纳兄弟公司。分析

资源

博客

适用于使用 Amazon Redshift 的湖仓一体架构的 ETL 和 ELT 设计模式:第 1 部分

为使用 Amazon Redshift 的湖仓一体架构构建可扩展的 ETL 和 ELT 设计模式:第 1 部分。

阅览博客 »
教程

Amazon Redshift Spectrum 入门

Amazon Redshift Spectrum 入门分步教程。

开始教程 »
客户案例

如何使用 Amazon Redshift 扩展数据分析

了解娱乐公司华纳兄弟如何使用 Amazon Redshift 扩展其数据分析工作负载。

观看视频 »
注册 AWS 账户
注册 AWS 账户

注册 AWS 账户并立即使用 AWS 免费套餐。

创建账户 
AWS 免费套餐
AWS 免费套餐

免费动手体验 AWS 平台、产品和服务。

了解详情 
迁移数据库
迁移数据库

使用 AWS Database Migration Service 快速、安全地迁移数据库。

探索详情