AWS 云
Amazon Redshift 入门

数据仓库是信息(对其进行分析可做出更明智的决策)的中央存储库。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库。业务分析师、数据科学家和决策者通过商业智能 (BI) 工具、SQL 客户端和其他分析应用程序访问数据。

数据和分析已然成为各大企业保持竞争力所不可或缺的部分。他们使用报告、控制面板和分析工具从其数据中获得洞察力、监控企业绩效以及更明智地决策。这些报告、控制面板和分析工具由数据仓库提供支持;数据仓库可以高效地存储数据以便最大限度地减少 I/O,并以极快的速度同时向成千上万的用户提供查询结果。

下载白皮书:Enterprise Data Warehousing on AWS

数据仓库的架构由三层组成。架构的底层是加载和存储数据的数据库服务器。中间层包括用于访问和分析数据的分析引擎。顶层是通过报告、分析和数据挖掘工具呈现结果的前端客户端。

数据仓库的运作原理如下:将数据整理成描述数据布局和类型(例如整数、数据字段或字符串)的 Schema。提取的数据将存储在 Schema 描述的各种表中。查询工具使用 Schema 来确定要访问和分析哪些数据表。

数据仓库的优势包括:

  • 更好地进行决策
  • 整合多个来源的数据
  • 数据质量高、一致且准确
  • 智能查询历史数据
  • 将分析处理从事务数据库中分离出来,提高了两个系统的性能。

 

数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。数据库用于捕获和存储数据,例如记录事务的详细信息。

特性 数据仓库 事务数据库
适合的工作负载 分析、报告、大数据 事务处理
数据源 从多个来源收集和标准化的数据 从单个来源(例如事务系统)捕获的数据
数据捕获 批量写入操作通常按照预定的批处理计划执行

针对连续写入操作进行了优化,因为新数据能够最大程度地提高事务吞吐量

数据标准化 非标准化 Schema,例如星型 Schema 或雪花型 Schema 高度标准化的静态 Schema
数据存储 使用列式存储进行了优化,可实现轻松访问和高速查询性能 针对在单行型物理块中执行高吞吐量写入操作进行了优化
数据访问 为最小化 I/O 并最大化数据吞吐量进行了优化 大量小型读取操作

与数据仓库不同,数据湖是所有数据(包括结构化和非结构化数据)的中央存储库。数据仓库利用针对分析进行了优化的预定义 Schema。数据湖中未定义 Schema,支持其他类型的分析,例如大数据分析、全文搜索、实时分析和机器学习。

特性 数据仓库 数据湖
数据 来自事务系统、运营数据库和业务线应用程序的关系数据 来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
Schema 设计在数据仓库实施之前(写入型 Schema) 写入在分析时(读取型 Schema)
性价比 更快查询结果会带来较高存储成本 更快查询结果只需较低存储成本
数据质量 可作为重要事实依据的高度监管数据 任何可以或无法进行监管的数据(例如原始数据)
用户 业务分析师、数据科学家和数据开发人员 数据科学家、数据开发人员和业务分析师(使用监管数据)
分析 批处理报告、BI 和可视化 机器学习、预测分析、数据发现和分析

数据集市是一种数据仓库,用于满足特定团队或业务部门(例如财务、营销或销售)的需求。它更小、更集中,并且可能包含最适合其用户社区的数据汇总。

特性 数据仓库 数据集市
范围 集中的多个整合主题领域 分散的特定主题领域
用户 组织级 某个社区或部门
数据源 多个来源 单个或多个来源,或数据仓库中已经收集的部分数据
大小 较大,可达数百 GB 到数 PB 较小,一般不超过数十 GB
设计 自上而下 自下而上
数据详细信息 完整且详细的数据 可能包含汇总数据

AWS 允许您利用与按需计算相关的所有核心优势,例如能够访问看似无限的存储和计算容量,以及能够借助越来越多所收集、存储和查询的数据并行扩展系统,而只需为预置的资源付费。此外,AWS 还提供一系列已相互无缝集成的托管服务,以便您能够快速部署端到端分析和数据仓库解决方案。

下图显示了端到端分析流程链的主要步骤,以及每个步骤可以使用的 AWS 托管服务:

AWS 上的分析管道

Amazon Redshift 是一种运行快速、完全托管且经济高效的数据仓库,可以在一项服务中同时提供 PB 级数据仓库和 EB 级数据湖分析。

Amazon Redshift 的运行速度是传统本地数据仓库的十倍。只需在 Redshift 中查询 PB 级数据并在 Amazon S3 中查询 EB 级结构化数据或自由文件格式,即可获得独特洞见,不需要移动或转换数据。

Redshift 的成本是传统本地数据仓库解决方案的十分之一。您可以从少量数据开始,每小时只需 0.25 USD,无最低消费,然后每年以 250 USD 的价格扩展到 PB 级数据,以 333 USD 的价格扩展到 TB 级未压缩数据,并且能以每 10 GB 已扫描数据低至 0.05 USD 的价格将分析扩展到 Amazon S3 数据湖。了解更多