免费试用 Amazon Redshift

开始免费试用
了解更多

获得每月 750 小时免费 DC2.Large,为期 2 个月。开始试用:

1. 创建 AWS 账户并登录 Amazon Redshift 控制台

2. 启动 Amazon Redshift 群集并选择 DC2.Large 节点类型

另外,可在我们的合作伙伴免费试用页面查看如何免费提取和报告您的数据。


问:什么是 Amazon Redshift?

Amazon Redshift 是一种快速且完全托管的数据仓库,让您可以使用标准 SQL 和现有的商业智能 (BI) 工具经济高效地轻松分析您的所有数据。利用 Amazon Redshift,您可以使用高性能本地磁盘上的列式存储通过复杂的查询优化对 PB 级结构化数据运行复杂的分析查询,并能大规模执行并行查询。大多数结果在几秒内返回。使用 Redshift 时,您可以从小规模开始,费用只有每小时 0.25 USD,并且无需签订协议;然后将数据量扩展到数 PB,费用为每年每 TB 1000 USD,不到传统解决方案的十分之一。Amazon Redshift 还包含 Amazon Redshift Spectrum,让您可以直接对 Amazon S3 中的数 EB 非结构化数据运行 SQL 查询。不需要加载或转换,并且您可以使用 Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile 和 TSV 等开源数据格式。Redshift Spectrum 可以根据检索的数据自动扩展查询计算容量,因此对 Amazon S3 的查询速度非常快,不受数据集大小的影响。

传统的数据仓库需要相当数量的时间和资源来进行管理,尤其是大型数据集。 另外,与内部部署型数据仓库的建立、维护及日益增长的自我管理相关的财务成本也非常之高。随着数据量的增加,您必须不断权衡应将哪些数据加载到数据仓库中,将哪些数据归档到存储中,以便可以管理成本、保持较低的 ETL 复杂度并提供出色性能。Amazon Redshift 不仅可以显著降低数据仓库的成本和运营开销,而且还可以利用 Redshift Spectrum 轻松地分析采用原生格式的大量数据,而无需让您来加载数据。

Amazon Redshift 为您提供利用基于 SQL 的常用客户端及商业智能 (BI) 工具通过标准的 ODBC 和 JDBC 连接对结构化数据进行快速查询的功能。查询为多个物理资源之间的分布式并行查询。您在 AWS 管理控制台中点击几次或调用一个 API 即可轻松对 Redshift 数据仓库进行扩展或缩减。Amazon Redshift 自动修补数据仓库并将其备份,并按照用户定义的保留期存储备份。Amazon Redshift 利用复制和连续备份来提高可用性并改善数据持久性,从而能从组件或节点故障中自动恢复。此外,为了保护您的中转数据和静态数据,Amazon Redshift 支持 Amazon 虚拟私有云 (Amazon VPC)、SSL 和 AES-256 加密和硬件安全模块 (HSM)。

与所有 Amazon Web 服务服务相同,它无需预先投资,而且您只需为您使用的资源付费。Amazon Redshift 根据您的使用量进行收费。甚至可以免费试用 Amazon Redshift。

问:什么是 Amazon Redshift Spectrum?

Amazon Redshift Spectrum 是 Amazon Redshift 的一项功能,借助这项功能,您可以对 Amazon S3 中的数 EB 非结构化数据运行查询,而无需进行加载或 ETL 操作。当您发布查询时,查询会进入 Amazon Redshift SQL 终端节点,该终端节点会生成查询方案并对其进行优化。Amazon Redshift 会确定哪些数据存储在本地以及哪些数据存储在 Amazon S3 中,然后生成一种方案来尽可能减少需要读取的 Amazon S3 数据量,从共享资源池中请求 Redshift Spectrum 工作线程来读取和处理 Amazon S3 中的数据。

Redshift Spectrum 可根据需要扩展到数千个实例,因此,无论数据大小如何,查询都会快速运行。而且,您可以像现在针对 Amazon Redshift 查询所做的一样,针对 Amazon S3 数据使用完全相同的 SQL,并可使用相同的 BI 工具连接到同一 Amazon Redshift 终端节点。Redshift Spectrum 可以实现单独的存储和计算,使您可以逐一单独扩展。您可以根据需要设置多个 Amazon Redshift 群集来查询 Amazon S3 数据湖,以便提供高可用性和无限制的并发度。Redshift Spectrum 让您可以灵活地将数据以您想要的格式,存储在您想要的位置,并在需要时即时可用。

问:Amazon Redshift 可代我管理哪些内容?

Amazon Redshift 管理数据仓库的设置、运行及扩展所必须的工作,从基础结构容量的预配置到当前管理任务(如备份和修补)的自动化。Amazon Redshift 自动监控节点和驱动器,帮助您从故障中恢复。借助 Redshift Spectrum,Amazon Redshift 可以管理 Amazon S3 中存储的数据的所有计算基础设施、负载均衡、计划、调度和查询执行情况。

问:与最传统的数据仓库存储及分析用数据库相比,Amazon Redshift 的性能如何?

Amazon Redshift 使用各种创新技术,与传统的数据仓库仓储及分析用数据库相比,其性能提高将近十倍:

  • 列式数据存储:Amazon Redshift 以列组织数据,并非以一系列的行来存储数据。与适用于事务处理的基于行的系统不同,基于列的系统适用于数据仓库存储及分析,在此系统下,查询经常涉及到对大型数据集进行聚合。由于仅对涉及查询的列进行处理,且列式数据顺序存储在存储介质上,故基于列的系统所需的 I/O 要少得多,从而显著提高了查询性能。
  • 高级压缩:与基于行的数据存储相比,列式数据存储可进行更大程度的压缩,因为类似的数据是按顺序存储在硬盘上。Amazon Redshift 拥有多种压缩技术,与传统的关系数据存储相比,经常可进行很大程度的压缩。此外,与传统的关系数据库系统相比,Amazon Redshift 不需要索引或具体化视图,因此使用的空间较少。将数据加载到空表中时,Amazon Redshift 自动对您的数据进行采样并选择最合适的压缩方案。
  • 大规模并行处理 (MPP):Amazon Redshift 在所有节点之间自动分配数据及查询负载。Amazon Redshift 可轻松将节点添加至您的数据仓库,而且随着您的数据仓库规模的扩大,仍能维持快速的查询性能。
  • Redshift Spectrum:借助 Redshift Spectrum,您可以对 Amazon S3 中的数 EB 数据运行查询,且无需进行加载或 ETL 操作。即使没有在 Amazon Redshift 中存储任何数据,您仍然可以使用 Redshift Spectrum 查询 Amazon S3 中的 EB 级数据集。当您发布查询时,查询会进入 Amazon Redshift SQL 终端节点,该终端节点会生成查询方案。Redshift 会确定哪些数据存储在本地以及哪些数据存储在 Amazon S3 中,然后生成一种方案来尽可能减少需要读取的 Amazon S3 数据量,从共享资源池中请求 Redshift Spectrum 工作线程来读取和处理 Amazon S3 中的数据,然后将结果返回 Amazon Redshift 群集进行任何剩余处理。

问:如何开始使用 Amazon Redshift?

您在注册后几分钟内即可从 Amazon Redshift 详细信息页面或通过 AWS 管理控制台开始使用 Amazon Redshift。如果您没有 AWS 账户,那么系统将提示您创建一个 AWS 账户。

要使用 Redshift Spectrum,您首先需要将数据存储在 Amazon S3 中。然后,您可以在 Amazon Redshift 群集中定义有关该数据的元数据,或在群集中注册您的 Hive 元数据仓中可能已经存在的元数据。您可以在 Amazon Redshift 群集中发出“CREATE EXTERNAL SCHEMA SQL”命令,在 Amazon Redshift 内将目录中的数据库定义或注册为外部架构。然后,您可以使用用于本地表的同一 SQL 以及目前支持 Amazon Redshift 的任何 BI 工具,发出针对 Amazon S3 的查询。您使用 Amazon Redshift SQL 创建的外部数据库定义将在 Amazon Athena 使用的同一数据目录中进行注册。您也可以选择从 Amazon Athena 目录管理外部数据库定义。 

请访问入门页面,了解如何免费试用 Amazon Redshift。

问:Amazon Redshift 在哪些 AWS 地区可用?

有关 Amazon Redshift 地区可用性的信息,请参阅“AWS 全球基础设施”页面的地区表

问:Redshift Spectrum 在哪些 AWS 地区可用?

Amazon Redshift Spectrum 在以下 AWS 地区可用:美国东部 (弗吉尼亚北部)、美国东部 (俄亥俄)、美国西部 (俄勒冈)、欧洲 (法兰克福)、欧洲 (爱尔兰)、亚太地区 (首尔)、亚太地区 (新加坡)、亚太地区 (悉尼) 和亚太地区 (东京)。

问:我如何创建一个 Amazon Redshift 数据仓库集群?

您可用 AWS 管理控制台Amazon Redshift API轻松创建一个 Amazon Redshift 数据仓库集群。您可以从单一节点 160GB 数据仓库开始,然后在 AWS 控制台中单击几下或进行一次 API 调用,一路扩展到 1 PB 或更大。

单节点配置使您能够开始经济快速地使用 Amazon Redshift,而且随着您的需求的增长,单节点配置可扩展为多节点配置。多节点配置需要一个领导节点来管理客户端的连接并接收查询,以及两个计算节点来存储数据并执行查询和计算。自动为您配置领导节点,您无需为其付费。

仅需指定您的首选可用区(可选项)、节点数量、节点类型、 主机名称和密码、安全组、您对备份保留期的首选项及其他系统设置。一旦您已选定您的理想配置,Amazon Redshift 将预配置所需的资源并建立您的数据仓库集群。

问:领导节点和计算节点分别起什么作用?

领导节点接收来自客户端应用程序的查询,分析查询并制定执行计划,执行计划是对查询进行处理的一套有序步骤。然后领导节点和计算节点协调这些计划的并行执行,聚合来自这些节点的中间结果,并将这些结果最终返回至客户端应用程序。

计算节点执行执行计划所规定的步骤,并在它们之间传输数据,对这些查询进行服务。中间结果被送回至客户端应用程序之前,它们被送回至领导节点进行聚合。

问:每个计算节点的最大存储量是多少?为了使性能最优化,每个计算节点的建议数据量是多少?

您可以使用密集存储 (DS) 节点类型或密集计算 (DC) 节点类型创建群集。通过密集存储节点类型,您可以以非常低的价格使用硬盘 (HDD) 创建超大型数据仓库。通过密集计算节点类型,您可以使用高速 CPU、大量的 RAM 和固态硬盘 (SSD) 创建性能极高的数据仓库。

密集存储 (DS) 节点类型提供两种大小:超大型节点和八倍超大型节点。超大型节点 (XL) 有 3 个硬盘,总共 2TB 的磁盘存储,而八倍超大型节点 (8XL) 有 24 个硬盘,总共 16TB 的磁盘存储。DS2.8XLarge 有 36 个 Intel Xeon E5-2676 v3 (Haswell) 虚拟内核和 244GiB RAM,DS2.XL 有 4 个 Intel Xeon E5-2676 v3 (Haswell) 虚拟内核和 31GiB RAM。请参阅定价页面了解更多详细信息。您可从每小时 0.85 USD 的单个超大型节点 2TB 数据仓库开始,然后扩展至 1 PB 或更大。您可按小时付费或使用预留实例定价,将价格降低到每年每 TB 不到 1 000 USD。

密集计算 (DC) 节点类型也提供两种大小。大型节点具有 160GB 的 SSD 存储、2 个 Intel Xeon E5-2670v2 (Ivy Bridge) 虚拟核心和 15GiB 的 RAM。八倍超大型节点是大型节点的 16 倍,具有 2.56TB 的 SSD 存储、32 个 Intel Xeon E5-2670v2 虚拟核心和 244GiB 的 RAM。您可从每小时 0.25 USD 的单个 DC2.Large 节点开始,然后一路扩展至 128 个 8XL 节点,从而具有 326TB 的 SSD 存储、3200 个虚拟内核和 24TiB 的 RAM。

Amazon Redshift 的 MPP 架构意味着可以通过增加数据仓库集群中的节点数来提升性能。每个计算节点的最佳数据量取决于您的应用特点和您的查询性能需求。

问:我能为每个 Amazon Redshift 数据仓库集群指定多少个节点?

一个 Amazon Redshift 数据仓库集群中可以包含 1 到 128 个计算节点,具体取决于节点类型。有关详细信息,请参阅我们的文档

问:我如何访问正在运行的数据仓库集群?

一旦您的数据仓库可供使用,您就可在 AWS 管理控制台或用 Redshift API 检索它的终端节点以及 JDBC 和 ODBC 连接字符串。 然后您可用您最喜欢的数据库工具、编程语言或商业智能 (BI) 工具使用此连接字符串。您需要把网络请求授权给正在运行的数据仓库集群。有关详细说明,请参阅我们的入门指南

问:我什么时候使用 Amazon Redshift 或者 Amazon RDS?

Amazon Redshift 和 Amazon RDS 都让您能够在云中运行传统的关系数据库,同时转移数据库管理负载。客户既将 Amazon RDS 数据库用于联机事务处理 (OLTP) ,也将其用于报告和分析。Amazon Redshift 利用多节点的规模和资源并使用各种优化法,为传统数据库对大型数据集的分析及报告工作负荷提供了数量级改善。当您的数据及查询的复杂性增加时,或者,在您要防止报告和分析处理对 OLTP 工作负荷造成干扰时,Amazon Redshift 提供优秀的外扩选项。

问:Amazon Redshift 和 Amazon EMR 分别应在何时使用?

如果需要使用自定义代码通过大数据处理框架 (如 Apache Spark、Hadoop、Presto 或 Hbase) 来处理和分析超大数据集,则应该使用 Amazon EMR。Amazon EMR 让您能够全面控制群集的配置和群集上安装的软件。

Amazon Redshift 之类的数据仓库是专为不同类型的分析而设计的。数据仓库旨在将来自多个不同来源 (如库存、财务和零售销售系统) 的数据汇集在一起。为了确保整个公司的报告具有一致的准确性,数据仓库采用一种高度结构化的方式来存储数据。这种结构可将数据一致性规则直接构建到数据库的表中。

当您需要对大量结构化数据执行复杂查询并获得超快性能时,Amazon Redshift 就是最理想的服务选择。

问:Redshift Spectrum 能否取代 Amazon EMR?

不能。尽管 Redshift Spectrum 非常适用于对 Amazon Redshift 和 S3 中的数据运行查询,但它真的不适合企业通常需要使用 Amazon EMR 之类的处理框架进行处理的使用案例类型。
Amazon EMR 的功能远不止于运行 SQL 查询。Amazon EMR 是一种托管服务,让您可以使用最新版本的常用大数据处理框架 (如 Spark、Hadoop 和 Presto) 在完全可定制的群集上处理和分析极大的数据集。借助 Amazon EMR,您可以为机器学习、图形分析、数据转换、流式处理数据以及您可以编写代码的几乎任何应用程序运行各种横向扩展的数据处理任务。您还可以将 Redshift Spectrum 与 EMR 配合使用。Amazon Redshift Spectrum 存储表定义的方式与 Amazon EMR 相同。因此,如果您已经在使用 EMR 处理大型数据存储,则可同时使用 Redshift Spectrum 来查询这些数据,而不会影响 Amazon EMR 任务。

查询服务、数据仓库和复杂的数据处理框架都各得其所,分别用于不同的领域。您只需要为任务挑选适当的工具即可。

问:Amazon Athena 和 Redshift Spectrum 分别应在何时使用?

Amazon Athena 是让任何员工都能对 Amazon S3 中的数据运行临时查询的最简单方式。Athena 是无服务器服务,因此您无需设置或管理基础设施,可以立即开始分析数据。

如果您拥有需要以一致且高度结构化的格式进行存储的频繁访问数据,那么您应该使用 Amazon Redshift 之类的数据仓库。这样一来,您就可以在 Amazon Redshift 中灵活存储结构化的频繁访问数据,并使用 Redshift Spectrum 将 Amazon Redshift 查询扩展到 Amazon S3 数据湖中的所有数据。此外,您还可以灵活地将数据以您想要的格式,存储在您想要的位置,并在需要时即时可用。

问:可以使用 Redshift Spectrum 查询使用 Amazon EMR 处理的数据吗?

可以。Redshift Spectrum 支持 Amazon EMR 使用的相同 Apache Hive 元数据仓查询数据和表定义。如果您使用的是 Amazon EMR 并拥有 Hive 元数据仓,则只需配置 Amazon Redshift 群集即可使用 Redshift Spectrum。然后,您可以马上开始查询这些数据和 Amazon EMR 任务。

问:为什么我必须使用 Amazon Redshift,而不是在 Amazon EC2 上运行我自己的 MPP 数据仓库集群?

Amazon Redshift 自动处理很多与数据仓库管理相关的耗时任务,包括:

  • 设置:使用 Amazon Redshift 时,您仅需创建一个数据仓库集群,定义您的构架,然后开始加载并查询您的数据。代您管理所有的预置、配置及补丁安装工作。
  • 数据持久性:Amazon Redshift 在您的数据仓库集群之内复制数据并将数据连续备份至 Amazon S3,Amazon S3 的设计宗旨是要让持久性达到 99.999999999%。Amazon Redshift 将每个驱动器的数据镜像至集群内的其他节点。如果某个驱动器发生故障,查询将继续进行,只是延迟稍有增加,同时 Redshift 利用副本重建该驱动器。如果出现节点故障,那么 Amazon Redshift 将自动配置新节点,并开始从集群内的其他驱动器或 Amazon S3 中恢复数据。它优先恢复最频繁查询的数据,这样最频繁执行的查询将迅速恢复功能。
  • 扩展:当容量和性能需要改变时,仅需调用一个 API 或在 AWS 管理控制台中单击几次,您就可在 Amazon Redshift 数据仓库集群中添加或移除节点。
  • 自动更新与修补:Amazon Redshift 自动应用更新程序并修补数据仓库,这样您就能专注于应用程序的使用,减轻管理负担。
  • EB 级查询能力:借助 Redshift Spectrum,您可以对 Amazon S3 中的数 EB 数据运行查询,且无需进行加载或 ETL 操作。即使没有在 Amazon Redshift 中存储任何数据,您仍然可以使用 Redshift Spectrum 查询 Amazon S3 中的 EB 级数据集。

回到顶部 »

问:使用 Amazon Redshift 要如何收费和计费?

仅按实际使用量收费,无最低费用或设置费用。您的计费依据为:

  • 计算节点小时数 – 计算节点小时数是在计费期内运行的所有计算节点的小时总数。按照每小时每节点一个单位计费,因此一个持续运行一整个月的三节点数据仓库集群将产生 2 160 个实例小时。您无需为领导节点小时数付费;仅计算节点产生费用。
  • 备份存储 – 备份存储是与数据仓库自动化及手工快照相关的存储。延长备份保留期或增加快照拍摄数量,将增加数据仓库所消耗的备份存储。对于已激活的数据仓库实例而言,无需额外付费,即可获得最多 100% 预配置数据仓库存储的备份存储。例如,如果您有一个已激活的具有 2TB 本地实例存储的单节点 XL 数据仓库集群,那么我们将提供高达 2TB-月的备份存储而无需额外付费。超出预配置存储大小的备份存储以及在集群终止之后存储的备份按标准 Amazon S3 费率计费。
  • 数据传输 – 对于传输到同一 AWS 区域内的 Amazon Redshift 和 Amazon S3 或从其中传出的数据,不收取传输费用。对于传入和传出 Amazon Redshift 的所有其他数据,您将按标准 AWS 数据传输费率支付费用。
  • 扫描数据 – 使用 Redshift Spectrum 时,您需要为系统执行查询时所扫描的 Amazon S3 数据量付费。不运行查询时,Redshift Spectrum 不收取任何费用。如果您用 Parquet 或 RC 等列格式存储数据,那么您的费用还会降低,因为 Redshift Spectrum 只会扫描查询所需的列,而不处理整行数据。同样,如果您使用 Redshift Spectrum 支持的格式之一来压缩数据,您的费用也会降低。对于使用的数据存储,您需要按照标准 Amazon S3 费率付费;对于使用的群集,您需要按照 Amazon Redshift 实例的费率付费。

有关 Amazon Redshift 的定价信息,请访问 Amazon Redshift 定价页面

问:Amazon Redshift 数据仓库集群什么时候开始并结束计费?

一旦数据仓库集群可供使用就开始计费。计费一直持续到该数据仓库集群终止为止,删除或实例出现故障时会发生终止。

问:Amazon Redshift 应计费实例小时数如何界定?

节点使用小时数按照数据仓库集群以可供使用的状态运行的每个小时计费。如果您不再希望为数据仓库集群付费,那么您必须将其终止,以免产生更多应计费节点小时数。不足一小时按一小时计费。

问:价格是否含税?

除非另行说明,否则我们的价格不包括适用的税费和关税 (包括增值税和适用销售税)。使用日本账单地址的客户若要使用 AWS,则需缴纳日本消费税。了解更多

回到顶部 »


问:如何将数据加载到 Amazon Redshift 数据仓库中?

您可以从一系列数据源中将数据加载到 Amazon Redshift,包括 Amazon S3Amazon DynamoDBAmazon EMRAWS Data Pipeline 和/或 Amazon EC2 或本地设备上的任何 SSH 启用型主机。Amazon Redshift 力图将数据并行加载到每个计算节点中,从而使数据仓库集群数据摄入速度最大化。有关 Amazon Redshift 数据加载的详细信息,请查看我们的入门指南

问:我能用 SQL ‘INSERT’ 语句加载数据吗?

可以,用户可用 ODBC 或 JDBC 连接至 Amazon Redshift 并发出 'insert' SQL 命名以插入数据。请注意这会比使用 S3 或 DynamoDB 慢一些,因为那些方法将数据并行加载至每个节点,而 SQL 插入语句则通过单个领导节点加载数据。

问:如何将数据从我现有的 Amazon RDS、Amazon EMR、Amazon DynamoDB 及 Amazon EC2 数据源加载至 Amazon Redshift?

您可以使用 COPY 命令以并行方式将数据从 Amazon EMR、Amazon DynamoDB 或任何启用了 SSH 的主机直接加载到 Amazon Redshift 中。此外,您还可以通过 Redshift Spectrum 使用简单的 INSERT INTO 命令将数据从 Amazon S3 加载到群集中。这让您可以将各种格式的数据 (如 Parquet 和 RC) 加载到群集中。请注意,如果使用此方法,则 Redshift Spectrum 会针对从 Amazon S3 中扫描到的数据量累计计费。

此外,许多 ETL 公司还对 Amazon Redshift 进行了认证,以便将其与自己的工具配合使用,其中有很多公司还提供了免费试用,以帮助您开始加载数据。AWS Data Pipeline 提供一个可从各种 AWS 数据源加载数据的高性能、可靠且容错的解决方案。您可以使用 AWS Data Pipeline 来指定数据源和理想的数据转换,然后执行一个预先写入的导入脚本,将您的数据加载到 Amazon Redshift 中。此外,AWS Glue 还是一项完全托管的提取、转换和加载 (ETL) 服务,让您能够轻松准备和加载数据进行分析。您只需在 AWS 管理控制台中单击几次,即可创建并运行 AWS Glue ETL 作业。

问:我有很多数据需要在初期加载到 Amazon Redshift 中。 通过互联网传输将耗费很长时间。 我如何加载这些数据?

您可用便携式存储设备通过 AWS Import/Export 将数据传输至 Amazon S3。 此外,您可用 AWS Direct Connect 在您的网络或数据中心和 AWS 之间建立一个专用网络连接。您可选用 1G 比特/秒或 10G 比特/秒的连接端口来传输数据。

回到顶部 »


问:Amazon Redshift 如何确保数据的安全性?

Amazon Redshift 用行业标准加密技术进行加密并确保您的数据在中转过程及静态期间的安全性。 为了在中转期间确保数据安全性,Amazon Redshift 支持客户端应用程序及 Redshift 数据仓库集群之间的 SSL 使能型连接。为了在静态期间确保数据安全性,Amazon Redshift 用硬件加速型 AES-256 在将每个数据块写入硬盘之时对其进行加密。此过程以低等级形式发生在 I/O 子系统中,它对写入硬盘的一切数据进行加密,包括中间查询结果。数据块按原样进行备份,这意味着备份也进行了加密。默认情况下,Amazon Redshift 会负责密钥管理,但您也可以选择使用您自己的硬件安全模块 (HSM) 管理您的密钥或通过 AWS 密钥管理服务管理您的密钥。

Redshift Spectrum 使用您账户的由 AWS Key Management Service (KMS) 使用的托管默认密钥来支持 Amazon S3 的服务器端加密 (SSE)。

问:我能在 Amazon 虚拟私有云 (Amazon VPC) 中使用 Amazon Redshift 吗?

是的,您可将 Amazon Redshift 用作 VPC 配置的一部分。借助 Amazon VPC,您可以定义与自己的数据中心运行的传统网络非常相似的虚拟网络拓扑。这给予您对谁能访问您的 Amazon Redshift 数据仓库集群的完全控制。

您可以将 Redshift Spectrum 与您 VPC 中的 Amazon Redshift 群集配合使用。请注意,Redshift Spectrum 目前不支持增强的 VPC 路由

问:我能直接访问 Amazon Redshift 计算节点吗?

不能。您的 Amazon Redshift 计算节点处于私有网络空间中,仅能从数据仓库集群的领导节点对其进行访问。这就为您的数据安全性提供了另外一层保护。

回到顶部 »


问:如果一个节点上的驱动器发生故障,那么对数据仓库集群的可用性和持久性有何影响?

某个驱动器发生故障时,Amazon Redshift 数据仓库集群将仍然可供使用,不过您会发现某些查询的性能略有下降。某个驱动器发生故障时,Amazon Redshift 将透明地使用那个节点内其他驱动器上存储的数据副本。此外,Amazon Redshift 将力图把您的数据转移到一个健康的驱动器,或者在转移无法完成时,替换您的节点。 单个节点集群不支持数据复制。若发生驱动故障,您需要根据 S3 上的快照还原集群。我们建议您至少为生产使用 2 个节点。

问:如果个别节点发生故障,那么对数据仓库集群可用性和数据持久性有何影响?

Amazon Redshift 将自动检测并替换数据仓库集群中的故障节点。在配置替换节点并将其添加至数据库之前,数据仓库集群无法进行查询和更新。Amazon Redshift 将使替换节点立即可用,并首先从 S3 中加载您最频繁访问的数据,让您尽快恢复数据查询。 单个节点集群不支持数据复制。若发生驱动故障,您需要根据 S3 上的快照还原集群。我们建议您至少为生产使用 2 个节点。

问:如果数据仓库集群的可用区 (AZ) 出现故障,那么对数据仓库集群可用性和数据持久性有何影响?

如果 Amazon Redshift 数据仓库集群的可用区无法使用,那么在 AZ 的电源及网络访问恢复之前,您将无法使用您的集群。数据仓库集群的数据是这样保留的:一旦 AZ 重新可供使用,那么您就能够开始使用 Amazon Redshift 数据仓库。此外,您也可选择将任何现有快照恢复到同一区域中的一个新 AZ 中。Amazon Redshift 将首先恢复您最频繁访问的数据,这样您就能尽快地恢复查询。

问:Amazon Redshift 支持 Multi-AZ 部署吗?

当前 Amazon Redshift 仅支持单一可用区部署。通过将数据从同一组 Amazon S3 输入文件加载到各自 AZ 中的两个 Amazon Redshift 数据仓库集群中,您便可在多个 AZ 中运行数据仓库集群。使用 Redshift Spectrum,您可以跨可用区运行多个群集,并访问 Amazon S3 中的数据,而无需将其加载到群集中。此外,您也可将数据仓库集群从数据仓库集群快照恢复至不同的可用区。

回到顶部 »


问:Amazon Redshift 如何备份数据?

在加载数据时,Amazon Redshift 复制数据仓库集群内的所有数据并将其连续备份至 S3。 Amazon Redshift 始终力图维持至少三份数据(计算节点上的正本数据、副本数据和 Amazon S3 上的备份数据)。Redshift 还能将您的快照异步复制到另一个地区的 S3 中进行灾难恢复。

问:Amazon Redshift 可以将备份保留多长时间?可否配置该时间?

默认情形下 Amazon Redshift 将备份保留一天。您可将其配置为 35 天之久。

问:我如何从备份中恢复 Amazon Redshift 数据仓库集群?

您可在备份保留时段内访问所有自动化备份。您一旦选择了某个要恢复的备份,我们将配置一个新的数据仓库集群并将数据恢复至此集群中。

问:我需要启用数据仓库集群备份,还是它会自动启用?

默认情形下,Amazon Redshift 以一天的保留期启用数据仓库集群自动化备份。免费备份存储被限制为数据仓库集群中节点上的总存储大小,并仅适用于已激活的数据仓库集群。例如,如果您有 8TB 的数据仓库总存储大小,那么我们将提供最多 8TB 的备份存储而不另外收费。如果您想将备份保留期延长为超过一天,那么您可用 AWS 管理控制台Amazon Redshift API来达到此目的。 有关自动快照的更多信息,请参阅 Amazon Redshift Management Guide。Amazon Redshift 仅备份已改变的数据,因此大多数快照仅占用少量的免费备份存储。

问:我如何管理自动化备份及快照保留期?

您可以使用 AWS 管理控制台或 ModifyDBInstance API,通过修改 RetentionPeriod 参数来管理自动备份的保留时间段。如果希望关闭自动备份,可以通过将保留期设置为 0 来执行该操作(不建议)。

问:如果我删除了数据仓库集群,那么对备份有何影响?

删除数据仓库集群时,您可以指定是否在删除之时创建一个最终快照,这样即可在日后还原所删除的数据仓库集群。数据仓库集群所有之前创建的手动快照将被保留并按照标准 Amazon S3 费率计费,除非您选择将它们删除。

回到顶部 »


问:我如何扩展 Amazon Redshift 数据仓库集群的大小和性能?

如何您想提高查询性能或对 CPU、内存或 I/O 的过度使用做出反应,那么您可通过 AWS 管理控制台或 ModifyCluster API 增加数据仓库集群内的节点数。在您修改自己的数据仓库集群时,所请求的更改会立即应用。您可以通过 AWS 管理控制台或 Amazon CloudWatch API 免费获得计算使用率、存储使用率和 Amazon Redshift 数据仓库群集读/写流量方面的指标。您也可以通过 Amazon Cloudwatch 的自定义指标功能来添加其他的用户定义指标。

使用 Redshift Spectrum,您可以运行多个访问 Amazon S3 中的相同数据的 Amazon Redshift 群集。您可以针对不同的使用案例使用不同的群集。例如,您可以将某个群集用于标准报告,将另一个群集用于数据科学查询。您的营销团队可以使用与运营团队不同的群集。根据本地群集中节点的类型和数量以及运行查询需要处理的文件数量,Redshift Spectrum 会自动将查询的任执行务分配到共享资源池外的多个 Redshift Spectrum 工作线程,以读取和处理来自 Amazon S3 的数据,然后将结果返回到您的 Amazon Redshift 群集中进行任何剩余处理。

问:在扩展过程中数据仓库集群仍可供使用吗?

对现有的数据仓库集群仍然可进行读操作,同时在扩展过程中将创建一个新的数据仓库集群。当新数据仓库集群准备好后,现有的数据仓库集群将暂时无法使用,同时现有数据仓库集群的规范名称记录被翻转过来,指向新数据仓库集群。这段不可使用期间通常仅持续几分钟,将在数据仓库集群的维护时段期间出现,除非您指定立即应用修改。Amazon Redshift 将数据从现有数据仓库集群并行转移至新数据仓库集群中的计算节点。这使您的操作能够尽快完成。

回到顶部 »


问:Amazon Redshift 与我首选的商业智能软件包及 ETL 工具兼容吗?

Amazon Redshift 使用行业标准 SQL 并可用标准 JDBC 和 ODBC 驱动程序进行访问。可以从我们的控制台的的“连接客户端”选项卡中下载我们的 Amazon Redshift 定制 JDBC 和 ODBC 驱动程序。我们与主流 BI 和 ETL 供应商进行的整合已经得到验证,其中许多都提供免费试用,以帮助您开始加载和分析数据。您也可以进入 AWS Marketplace 中来部署和配置具有 Amazon Redshift 兼容性设计的解决方案,只会花几分钟的时间。

问:Redshift Spectrum 支持哪些类型的查询?

您使用的查询语法和访问 Redshift Spectrum 中表的查询能力与您访问群集本地存储中的表时相同。您可以使用注册外部表所用的 CREATE EXTERNAL SCHEMA 命令中定义的架构名称来引用外部表。

问:如果本地存储中的表与外部表的名称相同,会怎么样?

就像使用本地表一样,您可以使用架构名称在查询中输入 schema_name.table_name 来准确选择所需内容。

问:Redshift Spectrum 支持哪些 BI 工具和 SQL 客户端?

Redshift Spectrum 支持所有 Amazon Redshift 客户端工具。客户端工具可继续使用 ODBC 或 JDBC 连接来连接到 Amazon Redshift 群集端点,而无需进行任何更改。

问:Redshift Spectrum 支持哪些数据格式?

Redshift Spectrum 目前支持大量开源数据格式,包括 Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile 和 TSV。

问:Redshift Spectrum 支持哪些压缩格式?

Redshift Spectrum 目前支持 Gzip 和 Snappy 压缩。

问:如果使用 Hive 元数据仓来存储有关 S3 数据湖的元数据,那么我可以使用 Redshift Spectrum 吗?

可以。CREATE EXTERNAL SCHEMA 命令支持 Hive 元数据仓。目前我们不支持针对 Hive 元数据仓运行 DDL。

问:如何获取在群集中创建的所有外部数据库表的列表?

您可以通过查询系统表 SVV_EXTERNAL_TABLES 来获取这一信息。


问:我如何监控 Amazon Redshift 数据仓库集群的性能?

您可以通过 AWS 管理控制台或 Amazon CloudWatch API 免费获得计算使用率、存储使用率和 Amazon Redshift 数据仓库群集读/写流量方面的指标。您也可通过 Amazon Cloudwatch 的定制度量功能,添加更多用户定义的度量。除了 CloudWatch 度量之外,Amazon Redshift 还通过 AWS 管理控制台提供关于查询及集群性能的信息。这些信息使您能够看见哪些用户及查询正在消耗最多的系统资源,并使您能够诊断性能问题。此外,您可看见每个计算节点上的资源使用情况,确保数据和查询在所有节点之间达到平衡。

问:我注意到访问群集中数据的一些查询的运行速度比 Redshift Spectrum 查询慢,这是什么原因?

Amazon Redshift 查询是针对本地磁盘在群集资源上运行的。而 Redshift Spectrum 查询是使用按查询横向扩展资源针对 S3 中的数据运行的。对于大多数查询而言,本地磁盘的速度更快。但对于那些扫描大量数据并执行最少计算处理的查询,我们可以应用大量的 Redshift Spectrum 工作线程以快速完成。


问:什么是维护时段?在软件维护期间数据仓库集群仍可供使用吗?

Amazon Redshift 可以定期执行维护,以便将修复程序、增强功能和新功能应用到您的群集。您可以通过编程方式或使用 Amazon Redshift 控制台对群集进行修改,从而更改计划的维护时段。在维护时段内,不可以对 Amazon Redshift 群集进行正常操作。要了解有关各区域的维护时段和计划的更多信息,请参阅《Amazon Redshift 管理指南》中的维护时段

回到顶部 »