问:什么是数据仓库?

分析无处不在。我们都使用各种报告和控制面板来管理我们的工作、向利益相关者报告进展,并进行专门的分析来为决策提供支持。这些报告、控制面板和 BI 工具由数据仓库提供支持;数据仓库可以高效地存储数据,最大限度地减少 I/O,并且以极快的速度同时向成千上万的用户提供查询结果。与事务处理数据库不同,数据仓库使用专门的架构和存储来实现快速的查询与数据加载性能。数据仓库还需要具有高度可扩展性,以便您可以随时添加更多数据源来丰富分析内容和分析结果。最后,数据仓库应该与各种第三方商业智能工具和 SQL 客户端无缝集成,并支持标准 SQL,以便客户利用其已经掌握的技能。

问:为什么要在 AWS 上运行数据仓库?

Amazon Redshift 是一种快速、易于使用并且完全托管的数据仓库解决方案。它可以自动执行基础设施预置以及备份、复制和修补等管理任务。Amazon Redshift 可以与第三方 BI 和 ETL 工具无缝集成,因此可以快速生成报告。而且,您加载和分析的数据数量不受任何限制。在数据增加时,您无需担心昂贵的系统升级或性能下降。Amazon Redshift 使用列式存储和多种优化技术,因此可以在任何规模下快速运行。Amazon Redshift 还是一种经济高效的服务,您只需按使用量付费。您只需每年支付每 TB 1000 USD 的费用,便可以让无限数量的用户对您的所有数据进行无限次数的分析。 

问:什么是 Amazon Redshift?

Amazon Redshift 是一种运行快速、完全托管的 PB 级数据仓库,让您可以通过简单而经济高效的方式使用现有商业智能工具来分析所有数据。从最低每小时 0.25 USD(无任何预付费)直到每年每 TB 1000 USD(PB 级),成本不到传统解决方案的十分之一。客户通常进行 3 倍压缩,也就是将其成本降低到每年每 TB (未压缩) 333 USD。

问:与最传统的数据仓库和分析用数据库相比,Amazon Redshift 的性能如何?

Amazon Redshift 使用各种创新技术,与传统的数据仓库和分析用数据库相比,其性能提高将近十倍:

  • 大规模并行:Amazon Redshift 在数据集(大小从数 GB 到数 EB)上提供快速查询性能。Redshift 使用列式存储、数据压缩和区域映射来降低执行查询所需的 I/O 数量。它使用大规模并行处理 (MPP) 数据仓库架构来并行执行和分配 SQL 操作,以便利用所有可用资源。底层硬件支持高性能数据处理,使用本地连接的存储以便尽可能增大 CPU 与驱动器之间的吞吐量,同时使用高带宽网状网络以便尽可能增大节点之间的吞吐量。
  • 机器学习:Amazon Redshift 使用机器学习来提供高吞吐量,不受您的工作负载或并发使用情况的影响。Redshift 利用复杂的算法来预测传入查询运行时间,并将其分配给最佳队列,以尽可能提升处理速度。例如,具有高并行要求的控制面板和报告等查询会路由到高速查询,以便立即进行处理。随着并发量的进一步增加,Amazon Redshift 将预测何时开始排队并通过并发扩展功能自动部署瞬态资源,以始终保持快速性能,不受集群中需求变化的影响。
  • 结果缓存:Amazon Redshift 使用结果缓存来为重复查询实现亚秒级响应时间。执行重复查询的控制面板、可视化和商业智能工具的性能得到大幅提升。在执行查询时,Redshift 会对缓存进行搜索,看看是否有之前运行的查询的缓存结果。如果找到缓存结果且数据没有变化,Amazon Redshift 会立即返回缓存结果,而不会重新运行查询。 

问:如何访问正在运行的数据仓库集群?

数据仓库可供使用后,您就可以在 AWS 管理控制台或使用 Redshift API 检索它的终端节点以及 JDBC 和 ODBC 连接字符串。然后您可以借助自己常用的数据库工具、编程语言或商业智能 (BI) 工具使用该连接字符串。您需要把网络请求授权给正在运行的数据仓库集群。有关详细说明,请参阅我们的入门指南

问:Amazon Redshift 是否与我首选的商业智能软件包和 ETL 工具兼容?

Amazon Redshift 使用行业标准 SQL,您可以使用标准 JDBC 和 ODBC 驱动程序进行访问。您可以从我们的控制台的“连接客户端”选项卡中下载 Amazon Redshift 定制 JDBC 和 ODBC 驱动程序。我们与主流 BI 和 ETL 供应商进行的集成已得到验证,其中许多集成都提供免费试用,用于帮助您开始加载和分析数据。您也可以进入 AWS Marketplace,在几分钟内部署和配置能够与 Amazon Redshift 配合使用的解决方案。

问:如何开始使用 Amazon Redshift?

您可以免费试用 Amazon Redshift。如果您从未创建过 Amazon Redshift 集群,则可以免费试用 DC1.Large 节点,时间为两个月。如果您每月获得 750 小时的免费试用时间,就能持续运行一个具有 160 GB 压缩 SSD 存储的 DC1.Large 节点。您还可以构建具有多个节点的集群来测试更大的数据集,但这会使您的免费试用小时数消耗得更快。如果两个月的免费试用期结束或者您每个月的使用时间超过 750 小时,您可以关闭集群以避免产生任何费用,也可以保持集群运行,并按我们的标准按需费率支付费用。