开始进行本项目

7 个步骤 | 60 分钟

问:什么是数据仓储?

分析无处不在。我们都使用各种报告和仪表板来管理我们的工作、向利益相关者报告进展,并进行专门的分析以便为决策提供支持。这些报告、仪表板和 BI 工具均受到数据仓库的支持;数据仓库可以高效地存储数据以便最大限度地减少 I/O,并以极快的速度同时向成千上万的用户提供查询结果。与事务处理数据库不同,数据仓库使用专门的架构和存储来实现快速的查询与数据加载性能。数据仓库还需要具有高度可扩展性,以便您可以随时添加更多数据源来丰富分析内容和分析结果。最后,数据仓库应该与各种第三方商业智能工具和 SQL 客户端无缝集成,并支持标准 SQL,以便客户利用其已经掌握的技能。

问:为什么要在 AWS 上进行数据仓储?

Amazon Redshift 是一种快速、易于使用且完全托管的数据仓储解决方案。它可以自动执行基础设施预置以及备份、复制和修补等管理任务。Amazon Redshift 可以与第三方 BI 和 ETL 工具无缝集成,因此可以快速生成报告。而且,您加载和分析的数据数量不受任何限制。在数据增加时,您无需担心昂贵的系统升级或性能下降。Amazon Redshift 使用列式存储和多种优化技术,因此可以在任何规模下快速运行。Amazon Redshift 还是一种经济高效的服务,您只需按使用量付费。您只需每年支付每 TB 1000 USD 的费用,便可以让无限数量的用户对您的所有数据进行无限次数的分析。  

问:什么是 Amazon Redshift?

Amazon Redshift 是一种快速、完全托管的 PB 级数据仓库,可方便您使用现有的商业智能工具以一种经济的方式轻松分析您的所有数据。从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 TB 1,000 USD (PB 级),成本不到传统解决方案的十分之一。客户通常进行 3 倍压缩,也就是将其成本降低到每年每 TB (未压缩) 333 USD。

问:与最传统的数据仓库存储及分析用数据库相比,Amazon Redshift 的性能如何?

Amazon Redshift 使用各种创新技术,与传统的数据仓库仓储及分析用数据库相比,其性能提高将近十倍:

  • 列式数据存储:Amazon Redshift 以列组织数据,并非以一系列的行来存储数据。与适用于事务处理的基于行的系统不同,基于列的系统适用于数据仓库存储及分析,在此系统下,查询经常涉及到对大型数据集进行聚合。由于仅对涉及查询的列进行处理,且列式数据顺序存储在存储介质上,故基于列的系统所需的 I/O 要少得多,从而显著提高了查询性能。
  • 高级压缩:与基于行的数据存储相比,列式数据存储可进行更大程度的压缩,因为类似的数据是按顺序存储在硬盘上。Amazon Redshift 拥有多种压缩技术,与传统的关系数据存储相比,经常可进行很大程度的压缩。此外,与传统的关系数据库系统相比,Amazon Redshift 不需要索引或具体化视图,因此使用的空间较少。将数据加载到空表中时,Amazon Redshift 自动对您的数据进行采样并选择最合适的压缩方案。
  • 大规模并行处理 (MPP):Amazon Redshift 可以自动将数据与查询负载分配到所有节点。Amazon Redshift 可轻松将节点添加至您的数据仓库,而且随着您的数据仓库规模的扩大,仍能维持快速的查询性能。

问:我如何访问正在运行的数据仓库集群?

一旦您的数据仓库可供使用,您就可在 AWS 管理控制台或用 Redshift API 检索它的终端节点以及 JDBC 和 ODBC 连接字符串。 然后您可用您最喜欢的数据库工具、编程语言或商业智能 (BI) 工具使用此连接字符串。您需要把网络请求授权给正在运行的数据仓库集群。有关详细说明,请参阅我们的入门指南

问:Amazon Redshift 与我首选的商业智能软件包及 ETL 工具兼容吗?

Amazon Redshift 使用行业标准 SQL 并可用标准 JDBC 和 ODBC 驱动程序进行访问。可以从我们的控制台的的“连接客户端”选项卡中下载我们的 Amazon Redshift 定制 JDBC 和 ODBC 驱动程序。我们与主流 BI 和 ETL 供应商进行的整合已经得到验证,其中许多都提供免费试用,以帮助您开始加载和分析数据。您也可以进入 AWS Marketplace,然后快速部署和配置能够与 Amazon Redshift 配合使用的解决方案。

问:如何开始使用 Amazon Redshift?

您可以免费试用 Amazon Redshift。如果您从未创建过 Amazon Redshift 群集,则可以免费试用 DC1.Large 节点,时间为两个月。如果您每月获得 750 小时的免费试用时间,就能持续运行一个具有 160 GB 压缩 SSD 存储的 DC1.Large 节点。您还可以构建具有多个节点的集群来测试更大的数据集,但这会使您的免费试用时数消耗得更快。如果两个月的免费试用期结束或者您每个月的使用时间超过 750 小时,您可以关闭群集以避免产生任何费用,也可以保持群集运行,并按我们的标准按需费率支付费用。

开始进行本项目