一般問題

造訪最新消息頁面,以找到關於 Amazon Redshift 的最新消息。
瀏覽文件以檢視更多詳細資訊和使用指導。

問:什麼是 Amazon Redshift?

Amazon Redshift 是得到最廣泛使用的雲端資料倉儲。藉助 Amazon Redshift,您可以使用標準 SQL 和現有的商業智慧 (BI) 工具分析所有資料,此方法不但快速簡單,而且經濟實惠。它可讓您使用精密的查詢優化、高效能儲存的單欄式儲存及大規模平行查詢執行,對數 TB 至數 PB 的結構化和半結構化資料執行複雜的分析查詢。大部分的結果都可在幾秒鐘內傳回。使用 Redshift,您可從每小時僅需 0.25 USD 的小規模開始,無須簽訂長期合約,然後擴展到數 PB 的資料,每年每 TB 1,000 USD,花費的成本不到傳統內部部署解決方案的十分之一。Amazon Redshift 也包含 Amazon Redshift Spectrum,讓您對 Amazon S3 資料湖中數 EB 的非結構化資料直接執行 SQL 查詢。不需要載入或轉換,而且您可以使用 Avro、CSV、Grok、Amazon Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、Sequence、Text、Hudi、Delta 和 TSV 等開放資料格式。Redshift Spectrum 會自動按已擷取的資料量擴展查詢運算容量,無論資料集大小為何,都能對 Amazon S3 進行快速的查詢。

Amazon Redshift 讓您能夠使用熟悉的 SQL 用戶端及商業智慧 (BI) 工具,透過標準 ODBC 和 JDBC 連線來快速查詢結構化的資料。這些查詢可跨多個實體資源分散且平行進行。您只要在 AWS 管理主控台按幾下滑鼠,或進行一次 API 呼叫,即可輕鬆對 Amazon Redshift 資料倉儲進行擴展或縮減。Amazon Redshift 會自動修補和備份資料倉儲,並按照使用者定義的保留期儲存備份。Amazon Redshift 利用複寫和持續備份來提高可用性並改善資料耐久性,而且可從元件和節點故障自動復原。此外,Amazon Redshift 透過與 AWS IAM 的整合、聯合身份、欄層級存取控制、Amazon Virtual Private Cloud (Amazon VPC)、SSL、AES-256 加密以及內建的 AWS KMS 整合,支援領先業界的安全性,以保護您的傳輸中資料和靜態資料。所有 Amazon Redshift 安全性功能皆已包含在內,無須額外收費。

Amazon Redshift 與 AWS CloudTrail 整合,可讓您對所有的 Redshift API 呼叫進行稽核。Redshift 會記錄所有 SQL 操作,包括連接嘗試、查詢和資料倉儲變更。您可以使用 SQL 查詢,在系統表格中存取這些記錄,或選擇將記錄儲存到 Amazon S3 上的安全位置。Amazon Redshift 符合 SOC1、SOC2、SOC3 和 PCI DSS 第 1 級法規。

與所有 Amazon Web Services 相同,無須前期投資,只需為使用的資源付費。Amazon Redshift 可讓您按使用量付費,您甚至可以免費試用 Amazon Redshift

如需 Amazon Redshift 區域可用性的相關資訊,請參閱 AWS 區域表。

問:為什麼我要使用 Amazon Redshift 而不是內部部署資料倉儲?

內部部署資料倉儲需要相當多的時間和資源進行管理,尤其是大型資料集。此外,與現場部署資料倉儲的建置、維護及日益增長的自我管理相關的財務成本也非常高。隨著資料的增加,您必須經常取捨哪些資料要載入資料倉儲而哪些資料要在儲存體中存檔,以便管理成本、將 ETL 複雜度保持在最低和交付絕佳的效能。Amazon Redshift 不只能大幅降低資料倉儲的成本和營運開銷,使用 Redshift Spectrum 還能輕鬆地分析大量原始格式的資料,無須載入資料。

問:什麼是適用於 Amazon Redshift 的 AQUA (進階查詢加速器)?

AQUA 是一種新的分散式與硬體加速快取,可使 Redshift 查詢的執行速度較其他雲端資料倉儲快上 10 倍。現有集中式儲存的資料倉儲架構,要求將資料移動到運算叢集中進行處理。隨著未來幾年資料倉儲的持續成長,移動所有此資料所需的網路頻寬,將成為查詢效能的瓶頸。

AQUA 對雲端資料倉儲採取了新措施。AQUA 在創新快取上就地進行大量資料處理,將運算技術帶入了儲存體。此外,它也使用了 AWS 設計的處理器和擴展架構來加速資料處理,這已超越現今傳統 CPU 的所有處理能力。 進一步了解並註冊以取得預覽版。

問:什麼是 Redshift Spectrum?

Redshift Spectrum 是 Amazon Redshift 的一項功能,可讓您對 Amazon S3 中 EB 級的非結構化資料執行查詢,無須載入或 ETL。當您發出查詢時,該查詢會傳送到 Amazon Redshift SQL 端點,並產生和優化查詢計劃。Amazon Redshift 會判斷哪些資料在本機而哪些資料在 Amazon S3、產生一個計劃將需要讀取的 Amazon S3 資料量減到最少、請求共用資源集區的 Redshift Spectrum 工作者以便從 Amazon S3 讀取並處理資料。

如有需要,Redshift Spectrum 可擴展到數千個執行個體,因此無論資料大小都能快速執行查詢。此外,您可以在 Amazon S3 資料使用與 Amazon Redshift 查詢完全一樣的 SQL,並使用相同的 BI 工具連接到相同的 Amazon Redshift 端點。透過 Redshift Spectrum 可以將儲存和運算分開,個別獨立擴展。您可以視需要設定無限個 Amazon Redshift 叢集以查詢 Amazon S3 資料湖,提供高可用性和無限制的並行。Redshift Spectrum 可讓您自由選擇存放資料的位置、存放的格式,而且讓您在需要處理資料時隨時可用。 如需 Redshift Spectrum 區域可用性的相關資訊,請瀏覽 Amazon Redshift 定價頁面。

問:什麼是 Amazon Redshift 受管儲存?

Amazon Redshift 受管儲存可用於 RA3 節點類型,使您能夠獨立擴展並支付運算和儲存體的費用,因此您可以僅依據運算需求調整叢集大小。它自動使用高效能 SSD 的本機儲存作為第 1 層快取,並利用資料區塊溫度、資料區塊使用期限和工作負載模式等優化手段來提供高效能,同時於需要時自動將儲存體擴展到 Amazon S3,而無需任何動作。

問:我該如何使用 Amazon Redshift 的受管儲存?

如果您已經在使用 Amazon Redshift DS 或 DC 節點,則可以將現有叢集升級到新的運算執行個體 RA3,以使用受管儲存。您還可以根據 RA3 執行個體建立新的叢集,並且自動包含受管儲存。使用此能力無須額外操作。

問:Amazon Redshift 如何簡化資料倉儲管理?

Amazon Redshift 管理設定、操作和擴展資料倉儲所需的工作。例如,佈建基礎架構容量、自動化正在進行的管理任務 (例如備份和修補) 以及監控節點和驅動程式以從故障中恢復。Redshift 還具備自動調整功能,同時在 Redshift Advisor 中提供用於管理倉儲的建議。對 Redshift Spectrum 而言,Amazon Redshift 會針對 Amazon S3 存放的資料管理所有運算基礎架構、負載平衡、查詢的規劃、排程和執行。

問:相較於現場部署的資料倉儲及分析用資料庫,Amazon Redshift 的效能如何?

Amazon Redshift 使用了各種創新技術,相較於傳統的資料倉儲及分析工作負載資料庫,最高可提升十倍效能,這些技術如下列所示:

  • 單欄式資料儲存體:Amazon Redshift 以欄組織資料,而不是以一連串的列存放資料。以列為基礎的系統適用於交易處理,而以欄為基礎的系統則適用於資料倉儲及分析,在這種系統的查詢經常涉及大型資料集的彙總執行。因為只會處理涉及查詢的欄,而且單欄式資料是依序存放在儲存媒體上,因此以欄為基礎的系統所需的 I/O 非常少,可大幅提高查詢效能。
  • 進階壓縮:因為單欄式資料存放區會將類似的資料依序存放在磁碟上,所以與以列為基礎的資料儲存相比可進行更大程度的壓縮。Amazon Redshift 採用多種壓縮技術,而且通常比傳統的關聯式資料存放區更能進行大幅度的壓縮。將資料載入空的表格時,Amazon Redshift 會自動採樣您的資料,並選擇最適合的壓縮機制。
  • 大規模平行處理 (MPP):Amazon Redshift 會自動在所有節點分配資料及查詢負載。Amazon Redshift 可讓您輕鬆將節點新增到資料倉儲,而且隨著您的資料倉儲規模擴大,仍能維持快速的查詢效能。
  • Redshift Spectrum:Redshift Spectrum 讓您能夠對 Amazon S3 中 EB 級的資料執行查詢。無須載入或 ETL。即使沒有在 Amazon Redshift 存放任何資料,仍然可以使用 Redshift Spectrum 查詢 Amazon S3 中多達 EB 的資料集。當您發出查詢時,該查詢會傳送到 Amazon Redshift SQL 端點,並產生查詢計劃。Amazon Redshift 會判斷哪些資料在本機而哪些資料在 Amazon S3、產生一個計劃將需要讀取的 Amazon S3 資料量減到最小、請求共享資源集區的 Redshift Spectrum 工作者以便從 Amazon S3 讀取並處理資料,然後將結果取出並送回 Amazon Redshift 叢集以完成剩餘的處理。
  • 具體化檢視:具體化檢視可大幅拉升查詢效能,加速處理重複且可預測的分析工作負載,例如儀表板、商業智慧 (BI) 工具查詢,以及 ELT (擷取、載入、轉換) 資料處理。您可以利用具體化檢視來儲存預先運算的查詢結果,並以增量方式處理來源表格的最新變更,有效維護這些查詢結果。引用具體化檢視的後續查詢使用預先運算的結果以更快地執行,同時使用自動重新整理和查詢重新寫入功能來簡化具體化檢視的使用并實現自動化。您可使用篩選條件、投影、內部聯結、彙總、分組、功能和其他 SQL 建構,根據一或多個來源表格來建立具體化檢視。
  • 可擴展性:本機資料倉儲的運算和儲存容量受本機硬體的約束所限制。Redshift 使您能夠根據需要擴展運算和儲存,以滿足不斷變化的工作負載。
  • 自動表格優化 (ATO) 是一種自我調整功能,有助於您發揮排序和分佈索引鍵的效能優勢,而無需手動操作。ATO 持續觀察查詢如何與表格互動,使用機器學習來選擇最合適的排序和分佈索引鍵,以優化叢集工作負載的效能。如果 Redshift 確定運用索引鍵會提高叢集效能,則表格將在幾小時內自動得到更改,而無需管理員的介入。與沒有 ATO 的叢集相比,使用 3TB 和 30TB 的 TPC-DS 基準,透過 ATO 功能進行的優化顯示出分別將叢集效能提高了 24% 和 34%。諸如自動 Vacuum 刪除、自動表格排序和自動分析的其他功能可避免對 Redshift 叢集進行手動維護和調整,從而為新叢集和生產工作負載取得最佳效能。
  • Amazon Redshift Advisor 透過分析叢集的工作負載和用量指標來制定自訂建議,以切實提高效能並優化成本。請登入 Amazon Redshift 主控台以檢視 Advisor 建議。如需詳細資訊,請參閱使用 Amazon Redshift Advisor 的建議。

問:如何開始使用 Amazon Redshift?

您在註冊後幾分鐘內就可以從 Amazon Redshift 詳細資訊頁面或透過 AWS 管理主控台開始使用 Amazon Redshift。如果您沒有 AWS 帳戶,系統會提示您建立帳戶。瀏覽我們的入門頁面,了解如何免費試用 Amazon Redshift。

問:如何建立和存取 Amazon Redshift 資料倉儲叢集?

您可以使用 AWS 管理主控台Amazon Redshift API,輕鬆建立 Amazon Redshift 資料倉儲叢集。您可以先建立單一節點,然後在 AWS 主控台按幾下或進行一次 API 呼叫,就能將 160 GB 資料倉儲直接擴展到數 PB 或更大。

單一節點組態最適合用於評估或開發/測試工作負載,讓您能夠以經濟實惠的方式快速開始使用 Amazon Redshift,並隨著需求增長再擴展成多節點組態。視節點類型而定,一個 Redshift 資料倉儲叢集可包含 1 到 128 個運算節點。對於最新一代的節點類型 RA3,最小節點數為 2。關於詳細資訊,請參閱我們的文件。

多節點組態需要一個領導節點來管理用戶端連線和接收查詢,還需要兩個運算節點來存放資料及執行查詢和運算。系統會自動佈建與運算節點大小相同的領導節點,不需由您執行也無需付費。

您只需指定偏好的可用區域 (選擇性)、節點數量、節點類型、主機名稱和密碼、安全群組、備份保留期的偏好選項及其他系統設定。選擇好所需的設定之後,Amazon Redshift 將佈建所需的資源,並設定您的資料倉儲叢集。

一旦您的資料倉儲叢集可供使用,您就可以從 AWS 管理主控台或用 Redshift API 擷取它的端點以及 JDBC 和 ODBC 連線字串。然後,您可以用偏好的資料庫工具、程式設計語言或商業智慧 (BI) 工具來使用此連線字串。您將需要將網路請求授權給正在執行的資料倉儲叢集。有關詳細說明,請參閱我們的入門指南

問:每個運算節點的最大儲存容量是多少? 為了優化效能,每個運算節點的建議資料量是多少?

您可以使用 RA3、DC 或 DS 節點類型建立叢集。RA3 節點類型讓您能夠個別擴展運算和儲存及支付費用。您可以根據效能需求來選擇所需的執行個體數目,並只需為您使用的受管儲存付費。

RA3 節點類型提供三種大小:RA3.16XL、RA3.4XL 和 RA3.XLPLUS。每一個 RA3.16XL 節點都擁有 48 個 vCPU、384 GiB 的記憶體,並支援每秒 8 GB 的 IO。RA3.16XL 和 RA3.4XL 叢集均以最少兩個節點執行,最小的兩個節點 RA3.16XL 或 RA3.4XL 叢集可提供 128 TB 的受管儲存。每個節點的 RA3.16XL 和 RA3.4XL 的受管儲存配額為 64 TB。RA3.16XL 叢集現在可以擴展至高達 128 個節點,讓您在受管儲存中建立高達 8 PB 的叢集。一個 RA3.4XL 節點擁有 12 個 vCPU、96 GiB 的記憶體,並支援每秒 2 GB 的 IO。RA3.4XL 叢集現在可以擴展至高達 64 個節點,讓您在受管儲存中建構高達 4 PB 的叢集。一個 RA3.XLPLUS 擁有 4 個 vCPU、32 GiB 的記憶體,并支援 650 MB 的 IO。RA3.XLPLUS 叢集現在可以擴展至高達 32 個節點,讓您在受管儲存中建構高達 5 PB 的叢集。注意:此處提到的所有受管儲存大小均適用於壓縮資料。Redshift 可將資料壓縮 3-4 倍,因此未壓縮的資料大小將比此處提到的大 3-4 倍。

DC 節點類型也提供兩種大小。大型有 160 GB 的 SSD 儲存、兩個 Intel Xeon E5-2670v2 (Ivy Bridge) 虛擬核心和 15 GiB 的 RAM。八倍超大型則大了 16 倍,具有 2.56 TB 的 SSD 儲存、32 個 Intel Xeon E5-2670v2 虛擬核心和 244 GiB 的 RAM。您可從每小時 0.25 USD 的單一 DC2.Large 節點開始,然後一直擴展到 128 個 8XL 節點,具有 326 TB 的 SSD 儲存、3,200 個虛擬核心和 24 TiB 的 RAM。

DS 節點類型提供兩種大小:超大型和八倍超大型。超大型 (XL) 有三個硬碟,總共為二 TB 的磁帶儲存,而八倍超大型 (8XL) 有 24 個硬碟,總共為 16 TB 磁帶儲存。DS2.8XLarge 有 36 個 Intel Xeon E5-2676 v3 (Haswell) 虛擬核心和 244 GiB RAM,而 DS2.XL 有四個 Intel Xeon E5-2676 v3 (Haswell) 虛擬核心和 31 GiB RAM。

有關其他詳細資訊,請參閱我們的定價頁面。

問:使用 Amazon Redshift 與Amazon RDS 的時機分別為何?

Amazon Redshift 和 Amazon RDS 都讓您能夠在雲端中執行傳統關聯式資料庫,無須管理資料庫。客戶主要將 Amazon RDS 資料庫用於線上交易處理 (OLTP) 工作負載,而 Redshift 則主要用於報告和分析。OLTP 工作負載需要快速查詢特定資訊,並支援例如插入、更新和刪除,並且最好由 Amazon RDS 處理的交易。Amazon Redshift 利用多節點的規模和資源,並使用各種優化方法,為傳統資料庫針對極大型資料集的分析及報告工作負載提供大幅改善。當您的資料及查詢複雜度增加時,如果要防止報告和分析處理對 OLTP 工作負載造成干擾,Amazon Redshift 可提供非常優異的擴展選項。現在,透過新的聯合查詢功能,您可以利用 Amazon Redshift 輕鬆地查詢 Amazon RDS 或 Aurora 資料庫服務的資料。

問:使用 Amazon Redshift 或 Redshift Spectrum 與Amazon EMR 的時機分別為何?

如果您使用自訂程式碼處理和分析具有大數據處理框架 (如 Apache Spark、Hadoop、Presto 或 Hbase) 的龐大資料集,應該使用 Amazon EMR。Amazon EMR 讓您完全控制叢集的組態以及在叢集上安裝的軟體。

Amazon Redshift 這類資料倉儲的設計則是用於完全不同的分析類型。資料倉儲的設計旨在從庫存、財務和零售系統等大量不同的來源提取資料並將其結合在一起。為了確保整個公司的報告永遠都能準確無誤,資料倉儲以高度結構化的方式存放資料。這個結構可將資料一致性規則直接內建到資料庫的表格。當您需要對大型的結構化和半結構化資料集合執行複雜的查詢並取得快速的效能時,Amazon Redshift 是最適合的服務。

雖然 Redshift Spectrum 功能非常適合對 Amazon Redshift 和 S3 中的資料執行查詢,但並不適用於企業處理框架 (像是 Amazon EMR) 時一般要求的使用案例類型。Amazon EMR 不僅是執行 SQL 查詢。Amazon EMR 是受管服務,能夠在可完全自訂的叢集使用常用大數據處理框架 (像是 Spark、Hadoop 和 Presto) 的最新版本處理和分析非常大型的資料集。您可以利用 Amazon EMR 為應用程式執行各種橫向擴展的資料處理任務,例如機器學習、圖形分析、資料轉換、資料串流,以及幾乎所有可由程式碼控制的應用程式。

您可以搭配 EMR 使用 Redshift Spectrum。Redshift Spectrum 使用與 Amazon EMR 相同的方式存放表格定義。Redshift Spectrum 可支援 Amazon EMR 用來找出資料和表格定義的相同 Apache Hive 中繼存放區。如果您使用 Amazon EMR 且已有 Hive 中繼存放區,只要設定 Amazon Redshift 叢集就能開始使用。接著,您就能隨著 Amazon EMR 任務立即開始查詢該資料。因此,如果您已經使用 EMR 處理大型資料存放區,則可使用 Redshift Spectrum 同時查詢該資料,且不會干擾 Amazon EMR 任務。

查詢服務、資料倉儲和複雜資料處理框架都有各自的專長,適合不同的用途。您只須為任務選擇合適的工具即可。

問:使用 Amazon Athena 與Redshift Spectrum 的時機分別為何?

Amazon Athena 是讓所有員工在 Amazon S3 資料執行臨機操作查詢最簡單的方法。Athena 是無伺服器的服務,您不須設定或管理任何基礎設施,可以立即開始分析資料。

如果您有經常存取的資料且需要以一致且高度結構化的格式存放,則應使用 Amazon Redshift 這類資料倉儲。這讓您可以用彈性的方式將經常存取的結構化資料存放在 Amazon Redshift,而且使用 Redshift Spectrum 還能將 Amazon Redshift 查詢延伸到 Amazon S3 資料湖中的資料。這可讓您自由選擇存放資料的位置、存放的格式,而且讓您在需要處理資料時隨時可用。

問:為什麼應該使用 Amazon Redshift,而不是在 Amazon EC2 上執行我自己的 MPP 資料倉儲叢集?

Amazon Redshift 會自動處理許多與資料倉儲管理相關的耗時任務,包括:
  • 設定:使用 Amazon Redshift 時,您只需建立資料倉儲叢集、定義結構描述,就可以開始載入和查詢您的資料。您無須管理佈建、組態或修補。
  • 資料耐久性:Amazon Redshift 在您的資料倉儲叢集之內複製資料並將資料持續備份至 Amazon S3,Amazon S3 的設計宗旨是要讓耐久性達到 99.999999999%。Amazon Redshift 會將每個磁碟機的資料鏡像複製到叢集內的其他節點。如果某個磁碟機發生故障,查詢將繼續進行,只是延遲會稍微增加,同時 Redshift 會從複本重建該磁碟機。如果出現節點故障,Amazon Redshift 將自動佈建新節點,並開始從叢集內的其他磁碟機或 Amazon S3 恢復資料。它會優先恢復最頻繁查詢的資料,這樣最頻繁執行的查詢將迅速恢復功能。
  • 擴展:當容量和效能需要改變時,只需呼叫一個 API 或在 AWS 管理主控台中按幾下滑鼠,就可以在 Amazon Redshift 資料倉儲叢集中新增或移除節點。您也可以使用 Redshift 中的排程器功能,安排擴展和調整大小操作的時間。
  • 自動更新與修補:Amazon Redshift 會自動套用升級並修補資料倉儲,這樣您就能專注於應用程式本身,而不是管理。
  • EB 級查詢功能:Redshift Spectrum 讓您能夠對 Amazon S3 中 EB 級的資料執行查詢。無須載入或 ETL。即使沒有在 Amazon Redshift 存放任何資料,仍然可以使用 Redshift Spectrum 查詢 Amazon S3 中多達 EB 的資料集。

計費

問:使用 Amazon Redshift 如何計價和收費?

僅按實際使用量收費,無最低費用或設定費用。Amazon Redshift 支援暫停與恢復叢集的功能,讓您可以在未使用叢集時,輕鬆暫停隨需計費。舉例來說,用於開發的叢集可以在未使用時暫停運算計費。叢集暫停期間,只會收取叢集儲存的費用。若需要穩定狀態的生產工作負載,您可切換至預留執行個體以取得較隨需定價更多的折扣。

從資料倉儲叢集開始可供使用就會計費。帳單週期會一直持續到資料倉儲叢集終止為止,也就是刪除執行個體或執行個體出現故障時就會終止。您的計費是根據以下項目計算:

  • 運算節點小時:運算節點小時是所有運算節點在計費期間執行的小時總數。節點使用小時數是按照資料倉儲叢集以可供使用的狀態執行的每個小時計費。如果您不想再支付資料倉儲叢集的費用,就必須將其終止,以免產生更多應計費的節點小時數。未滿一小時的節點小時數按一小時計費。每小時每節點為一個計費單位,因此,持續執行一整個月的三節點資料倉儲叢集將產生 2,160 個執行個體小時。您無須為領導節點小時付費;只有運算節點會產生費用。
  • 受管儲存:您要根據您區域適用的固定 GB-月費率,為受管儲存中存放的資料支付費用。受管儲存只提供 RA3 節點類型,無論資料大小,都需針對 Redshift 受管儲存支付同樣的低費率。受管儲存的使用量,是根據受管儲存中存在的總資料以每小時計算的。您可以透過 Amazon CloudWatch 或 AWS 管理主控台來監控 RA3 叢集中的資料量。在 RA3 節點與受管儲存之間傳輸資料不用支付任何費用。受管儲存費用不包含因為自動和手動快照而產生的備份儲存費用。一旦叢集終止,您仍需為繼續保留手動備份付費。
  • 備份儲存:備份儲存是與資料倉儲自動化及手動快照相關的儲存。延長備份保留期或增加快照拍攝數量,將增加資料倉儲所消耗的備份儲存。已啟動的資料倉儲叢集可獲得最多 100% 佈建儲存的備份儲存,並不收取其他費用。例如,如果您有一個含 2TB 本機執行個體儲存體的作用中單一節點 XL 資料倉儲叢集,我們會提供每月高達 2TB 的備份儲存,並不收取其他費用。超出佈建儲存大小的備份儲存以及在您的叢集終止之後存放的備份,按標準 Amazon S3 費率計費。
  • 資料傳輸:相同 AWS 區域內 Amazon Redshift 與 Amazon S3 之間的資料傳輸無須支付數據傳輸費。傳入和傳出 Amazon Redshift 的所有其他資料傳輸,則需按照標準 AWS 資料傳輸費計算。
  • 掃描的資料:使用 Redshift Spectrum 只需支付執行查詢所掃描的 Amazon S3 資料量。沒有執行查詢時無須支付 Redshift Spectrum 費用。如果以單欄格式存放資料 (如 Parquet 或 RC),您的費用會下降,因為 Redshift Spectrum 只會掃描查詢所需的欄,而不是處理整個資料列。同樣地,如果您使用 Redshift Spectrum 支援的其中一種格式來壓縮資料,費用也會下降。資料儲存按標準 Amazon S3 費率計費,而所使用的叢集則按 Amazon Redshift 執行個體費率計費。
  • 並行擴展:藉助並行擴展,Redshift 會自動新增暫時性容量,即使有數千個並行的使用者和查詢,仍可持續提供快速查詢效能。不需要管理資源、也無須預付費用,而且會扣掉暫時性叢集在啟動或關機期間的費用。在您的主要叢集執行時,每 24 小時可以累積一小時的並行擴展叢集積分。對於超過免費積分的並行擴展叢集,會按照每秒隨需費率收費。只會計入您查詢所用的用量,每次啟用並行擴展叢集時,最低收費以一分鐘計算。每秒隨需費率則以 Amazon Redshift 叢集中的節點類型和節點數量為準。

除非另有說明,否則我們的價格不包括適用的稅金和稅收 (包括加值稅和適用的營業稅)。帳單地址在日本的客戶若使用 AWS 服務,則需負擔日本消費稅。進一步了解。

有關 Amazon Redshift 的定價資訊,請瀏覽 Amazon Redshift 定價頁面。

資料整合與載入

問:如何將資料載入到 Amazon Redshift 資料倉儲中?

您可以從各種資料來源將資料載入 Amazon Redshift,其中包括 Amazon S3Amazon RDSAmazon DynamoDBAmazon EMRAWS GlueAWS Data Pipeline 和/或 Amazon EC2 或內部部署的任何已啟用 SSH 主機。Amazon Redshift 會嘗試將資料平行載入每個運算節點,將資料倉儲叢集擷取資料的速度提到最高。用戶端可使用 ODBC 或 JDBC 連接到 Amazon Redshift,並發出 'insert' SQL 命令以插入資料。請注意,這會比使用 S3 或 DynamoDB 稍慢,因為那些方法是將資料平行載入每個運算節點,而 SQL insert 陳述式則是透過單一領導節點載入資料。如需將資料載入 Amazon Redshift 的更多詳細資訊,請查看我們的入門指南

問:如何將資料從現有的 Amazon RDS、Amazon EMR、Amazon DynamoDB 及 Amazon EC2 資料來源載入 Amazon Redshift?

您可以使用我們的 COPY 命令,以平行方式將資料從 Amazon EMR、Amazon DynamoDB 或任何已啟用 SSH 主機直接載入到 Amazon Redshift。Redshift Spectrum 還能讓您使用簡單的 INSERT INTO 命令將資料從 Amazon S3 載入叢集。您可以使用此命令在叢集中載入不同格式的資料,像是 Parquet 和 RC。請注意,如果您使用這種方法,將會累計從 Amazon S3 掃描資料的 Redshift Spectrum 費用。 

不僅如此,許多 ETL 公司也已認證 Amazon Redshift 可與他們的工具搭配使用,其中部分還提供免費試用,協助您開始載入資料。AWS Data Pipeline 提供一個高效能、可靠且容錯的解決方案,可從各種 AWS 資料來源 (例如 Amazon RDS) 載入資料至 Redshift。您可以使用 AWS Data Pipeline 指定資料來源和所需的資料轉換,然後執行預先寫好的匯入指令碼,將資料載入 Amazon Redshift。此外,AWS Glue 是全受管的擷取、轉換和載入 (ETL) 服務,可輕鬆準備資料以及載入資料用於分析。只要在 AWS 管理主控台按幾下,就可以建立並執行 AWS Glue ETL 任務。

問:我有許多資料是第一次載入 Amazon Redshift。透過網際網路傳輸會耗費很長的時間。我要如何載入這些資料?

您可以使用可攜式儲存裝置,透過 AWS Snowball 將資料傳輸至 Amazon S3。此外,您可以使用 AWS Direct Connect 在您的網路或資料中心和 AWS 之間建立私有網路連線。您可以選用 1 Gbit/秒或 10 Gbit/秒的連接埠來傳輸資料。

安全性

問:Amazon Redshift 如何保護資料的安全?

Amazon Redshift 透過內建 AWS IAM 的整合、單一登入 (SSO) 聯合身份、多重因素驗證、欄層級存取控制、Amazon Virtual Private Cloud (Amazon VPC),以及內建的 AWS KMS 整合,支援領先業界的安全性,以保護您的傳輸中資料和靜態資料。Amazon Redshift 使用產業標準加密技術進行資料加密,確保傳輸中和靜態資料的安全。為了確保傳輸中的資料安全,Amazon Redshift 支援用戶端應用程式及 Redshift 資料倉儲叢集之間的已啟用 SSL 連線。而為了確保靜態資料安全,Amazon Redshift 使用硬體加速型 AES-256,在寫入磁碟時加密每個區塊。這是在 I/O 子系統中的低層級進行,會對寫入磁碟的所有資料進行加密,包括中繼查詢結果。區塊會按原來狀態備份,這表示備份也會加密。在預設情況下,Amazon Redshift 會負責金鑰管理,但您可以選擇透過 AWS Key Management Service 來管理金鑰。所有 Amazon Redshift 安全性功能皆已提供,無須額外收費。Redshift Spectrum 支援使用 AWS Key Management Service (KMS) 管理的帳戶預設金鑰進行 Amazon S3 伺服器端加密 (SSE)。

問:Redshift 是否支援如欄層級安全此種精細的存取控制?

是。精細的欄層級安全控制可確保使用者只會看到他們應該存取的資料。Amazon Redshift 支援對本機表格的欄層級存取控制,因此您可以透過向使用者或使用者群組授予/撤銷欄層級權限,來控制對表格或檢視的各欄進行存取。Redshift 與 AWS Lake Formation 整合,確保 Lake Formation 的欄層級存取控制也會在 Redshift 查詢資料湖資料時強制套用。

問:Amazon Redshift 支援資料遮罩或資料字符化嗎?

藉助 Amazon Lambda 使用者定義函數 (UDF),可以將 AWS Lambda 函數用作 Amazon Redshift 中的 UDF,並從 Redshift SQL 查詢中叫用此函數。此功能可讓您為 SQL 查詢撰寫自訂擴展,以實現與其他服務或第三方產品的緊密整合。可以撰寫 Lambda UDF,以透過與 Protegrity 等供應商整合來啟用外部字符化、資料遮罩、資料識別和去識別,同時可在查詢期間根據使用者的許可和所屬群組保護或取消保護敏感資料。

問:Redshift 是否支援單一登入?

是。若客戶欲使用其公司身份供應商 (例如 Microsoft Azure Active Directory、Active Directory Federation Services、Okta、Ping Federate 或其他符合 SAML 的身份供應商),則可以將 Amazon Redshift 設定為提供單一登入。

問:Redshift 如何搭配 Microsoft Azure Active Directory 支援單一登入?

您可以使用 Microsoft Azure Active Directory(AD) 身份登入 Amazon Redshift 叢集。這讓您可登入 Redshift,而無須在 Redshift 中複製 Azure Active Directory 身份。

問:Amazon Redshift 是否支援 Multi-Factor Authentication (MFA)?

是。在對 Amazon Redshift 叢集進行身份驗證時,可以使用多重因素驗證 (MFA) 來提高安全性。

問:是否可在 Amazon Virtual Private Cloud (Amazon VPC) 使用 Amazon Redshift?

是,您可以將 Amazon Redshift 做為 VPC 設定的一部分使用。透過 Amazon VPC,您可以定義一個與自己資料中心內執行的傳統網路非常相似的虛擬網路拓撲。這讓您能夠完全控制誰能存取您的 Amazon Redshift 資料倉儲叢集。您可以使用 Redshift Spectrum 搭配屬於 VPC 的 Amazon Redshift 叢集。

問:是否可以直接存取 Amazon Redshift 運算節點?

否。您的 Amazon Redshift 運算節點位於私有網路空間,只能從資料倉儲叢集的領導節點存取。這可為您的資料安全性提供多一層保護。

可用性與耐久性

問:如果其中一個節點上的磁碟機發生故障,對資料倉儲叢集的可用性和耐久性有何影響?

Amazon Redshift 將自動偵測並替換資料倉儲叢集中的故障節點。資料倉儲叢集必須等到替換節點佈建並新增至資料庫之後,才能提供進行查詢和更新。Amazon Redshift 會讓替換節點立即可供使用,並先從 S3 載入最頻繁存取的資料,讓您儘快恢復資料查詢。單一節點叢集不支援資料複寫。如果發生磁碟機故障,您需要從 S3 上的快照還原叢集。我們建議您至少要為生產環境使用兩個節點。

問:如果個別節點發生故障,對資料倉儲叢集可用性和資料耐久性有何影響?

Amazon Redshift 將自動偵測並替換資料倉儲叢集中的故障節點。資料倉儲叢集必須等到替換節點佈建並新增至資料庫之後,才能提供進行查詢和更新。Amazon Redshift 會讓替換節點立即可供使用,並先從 S3 載入最頻繁存取的資料,讓您儘快恢復資料查詢。單一節點叢集不支援資料複寫。如果發生磁碟機故障,您需要從 S3 上的快照還原叢集。我們建議您至少要為生產環境使用兩個節點。

問:如果資料倉儲叢集的可用區域 (AZ) 出現故障,對資料倉儲叢集可用性和資料耐久性有何影響?

如果 Amazon Redshift 資料倉儲叢集的可用區域不可用,Amazon Redshift 會自動將您的叢集移動至另一個 AWS 可用區域 (AZ),而不會丟失任何資料或變更應用程式。為此,您必須在叢集組態設定中啟用搬遷功能。

問:Amazon Redshift 是否支援異地同步備份部署?

目前,Amazon Redshift 僅支援單一可用區部署。透過將資料從同一組 Amazon S3 輸入檔載入到不同 AZ 的兩個 Amazon Redshift 資料倉儲叢集,便可在多個 AZ 中執行資料倉儲叢集。您可以使用 Redshift Spectrum 跨可用區域啟動多個叢集並存取 Amazon S3 中的資料,無須將其載入您的叢集。此外,您也可以將資料倉儲叢集從資料倉儲叢集快照恢復至不同的 AZ。

備份與恢復

問:Amazon Redshift 如何備份我的資料? 如何從備份恢復叢集?

載入資料時,Amazon Redshift 會複製資料倉儲叢集內的所有資料,並將其持續備份至 Amazon S3。Amazon Redshift 會一直嘗試至少維護三份資料 (運算節點上的原始資料和複本,以及 Amazon S3 中的備份)。Redshift 還能將您的快照以非同步方式複製到另一個區域的 S3 以進行災難復原。

在預設情況下,Amazon Redshift 可自動備份資料倉儲叢集,保留期為一天。最長可設定為 35 天。

免費備份儲存限制為資料倉儲叢集中節點上的總儲存大小,且僅適用於作用中的資料倉儲叢集。例如,如果您共有 8 TB 的資料倉儲儲存,我們將提供最多 8 TB 的備份儲存,且不收取其他費用。如果您要將備份保留期延長為超過一天,可以使用 AWS 管理主控台Amazon Redshift API 執行此操作。如需自動快照的詳細資訊,請參閱 Amazon Redshift Management Guide。Amazon Redshift 只會備份已變更的資料,因此大多數快照僅佔用少量的免費備份儲存。

需要恢復備份時,您可以存取備份保留時間內的所有自動化備份。一旦選擇某個要恢復的備份,我們就會佈建新的資料倉儲叢集,並將資料恢復至此叢集。

問:如何管理自動備份及快照的保留?

您可以使用 AWS 管理主控台ModifyCluster API 修改 RetentionPeriod 參數,以管理自動備份的保留期。如果您希望完全關閉自動備份,可以將保留期設為 0 (不建議)。

問:如果刪除資料倉儲叢集,對備份有何影響?

在您刪除資料倉儲叢集時,可以指定是否在刪除時建立最終快照。這樣就可以在日後還原所刪除的資料倉儲叢集。之前建立的所有資料倉儲叢集手動快照都會保留,並按照標準 Amazon S3 費率計費,除非您選擇將它們刪除。

可擴展性

問:如何擴展 Amazon Redshift 資料倉儲叢集的大小和效能?

如果您想提高查詢效能或對 CPU、記憶體或 I/O 的過度使用做出回應,可透過 AWS 管理主控台ModifyCluster API,使用彈性調整大小功能增加資料倉儲叢集內的節點數量。當您修改資料倉儲叢集時,所請求的更改會立即套用。透過 AWS 管理主控台或 Amazon CloudWatch API,可免費提供運算使用率、儲存使用率和 Amazon Redshift 資料倉儲叢集讀/寫流量的指標。您也可透過 Amazon CloudWatch 的自訂指標功能,新增更多使用者定義的指標。

透過並行擴展功能,您可以支援幾乎不受限制的並行使用者和並行查詢,同時保有一致的快速查詢效能。啟用並行擴展時,Amazon Redshift 會在您需要時自動新增額外的叢集容量,以處理增加的並行讀取查詢。

使用 Redshift Spectrum 可以執行存取相同 Amazon S3 資料的多個 Amazon Redshift 叢集。您可以在不同的使用案例使用不同的叢集。例如,您可以使用一個叢集執行標準報告,然後使用另一個叢集執行資料科學查詢。行銷團隊可使用自己的叢集,無須與營運團隊使用一樣的叢集。Redshift Spectrum 會將查詢自動分發到共享資源集區的多個 Redshift Spectrum 工作者執行,以讀取和處理 Amazon S3 中的資料,並將結果放回 Amazon Redshift 叢集以進行後續的其他處理。

問:擴展期間是否仍可使用資料倉儲叢集?

這隨情況而異。當您使用並行擴展功能時,叢集的讀取和寫入在並行擴展期間完全不受影響。使用彈性調整大小功能,叢集在調整大小期間會有四到八分鐘無法使用。使用受管儲存中的 Redshift RA3 儲存彈性時,叢集完全可用,而資料會在受管儲存和運算節點之間自動移動。

問:什麼是 Amazon Redshift 資料共享 (預覽版)?

Amazon Redshift 資料共享 (預覽版) 提供一種在多個 Redshift 叢集中共享即時資料的安全、便捷方式。透過對任何 Redshift 叢集中的資料進行即時、精細和高效能的存取,同時無需複製或移動資料,資料共享有效提升了組織的敏捷性;此外,資料共享提供了資料的即時存取權限,這樣使用者就可以檢視與叢集中的更新保持一致的最新資訊。藉助資料共享,您可以快速採用新的分析工作負載,並為它們佈建隔離的運算資源,以滿足工作負載特定的效能 SLA,同時允許存取通用資料集。除了在組織內部共享資料之外,資料共享還可實現組織之間以及與外部相關方之間的安全受管協作。資料共享的常見使用案例包括:建立一個中心 ETL 叢集,以與許多 BI 叢集共享資料,從而提供讀取工作負載隔離和計費;提供資料即服務,並與外部消費者共享資料;組織內的多個業務組共享資料并展開協作以取得差異化的洞見;以及在開發、測試和生產環境之間共享資料。要進一步了解以及開始操作,請瀏覽 Redshift 文件。 

問:什麼是 Redshift 中的跨資料庫查詢?

藉助跨資料庫查詢,您可以無縫地查詢和加入有權存取的任何 Redshift 資料庫中的資料,而不受所連線資料庫的限制。這可以包括叢集上的本機資料庫,以及從遠端叢集提供的共享資料集。跨資料庫查詢可讓您靈活地將資料組織為獨立的資料庫,以支援多租用戶組態。

問:客戶何時應使用並行擴展,何時又應使用資料共享?

資料共享和並行擴展是具有互補性質的功能。藉助並行擴展,Redshift 可讓您自動擴展單個叢集中的一個或多個工作負載,以處理高並行和查詢高峰。Redshift 會彈性并自動在幾秒鐘內擴充容量以應對使用者活動的激增,並在活動量減少時降低容量。應用程式使用單個應用程式端點持續與 Redshift 互動。資料共享可讓您透過多叢集、多帳戶部署擴展到不同的工作負載。這就實現了工作負載隔離和計費功能、分散環境中的跨群組協作,並且能夠將資料即服務提供給內部和外部利益相關者。可以在資料共享生產者叢集和消費者叢集上啟用並行擴展。

並行

問:如何管理資源以確保我的 Redshift 叢集可在高度並行期間持續提供快速效能?

典型資料倉儲在一天中的並行查詢用量會有明顯的變化。只針對需要的期間新增資源而不是為需求尖峰時刻佈建,會是更為經濟實惠的方式。Amazon Redshift 會代替您自動管理這一切。

並行擴展是 Amazon Redshift 的一項功能,即使有數千個並行查詢,仍可持續提供快速查詢效能。使用此功能時,Amazon Redshift 會視需要自動新增暫時容量,以處理大量需求。Amazon Redshift 會將查詢自動路由到擴展叢集,這些叢集可在最短時間內佈建並立即開始處理查詢。

大多數客戶都可以免費使用此功能。每個 Amazon Redshift 叢集每天最多可獲得一小時的免費並行擴展積分。這可讓您預測每個月的成本,即使在分析需求起伏不定的期間也可進行預測。

問:什麼是彈性調整大小以及與並行擴展有什麼不同?

彈性調整大小功能可在數分鐘內從單一 Redshift 叢集新增或移除節點,以管理其查詢輸送量。例如,可能需要額外的 Redshift 資源才能準時完成日報告或月終報告中特定時數的 ETL 工作負載。並行擴展功能可新增額外的叢集資源,以增加整體查詢並行。

問:是否可直接存取並行擴展叢集?

否,並行擴展是可大規模擴展的 Redshift 資源集區,且客戶沒有此集區的直接存取權。

查詢和分析

問:Amazon Redshift 和 Redshift Spectrum 與我偏好的商業智慧軟體套件及 ETL 工具是否相容?

相容,Amazon Redshift 使用產業標準 SQL,並可使用標準 JDBC 和 ODBC 驅動程式存取。您可以從 Redshift 主控台的連線用戶端標籤下載 Amazon Redshift 自訂 JDBC 和 ODBC 驅動程式。我們與熱門的 BI 和 ETL 供應商進行的整合已經獲得驗證,其中許多都提供免費試用,以協助您開始載入和分析資料。您也可以前往 AWS Marketplace,只需幾分鐘,就可以部署和設定專為與 Amazon Redshift 搭配使用而設計的解決方案。

Redshift Spectrum 支援所有 Amazon Redshift 用戶端工具。用戶端工具可使用 ODBC 或 JDBC 連線持續連接到 Amazon Redshift 叢集端點。不需要進行任何變更。

在 Redshift Spectrum 中使用的查詢語法和存取表格的查詢功能與 Redshift 叢集本機儲存中的表格完全一樣。外部表格使用 CREATE EXTERNAL SCHEMA 命令 (其註冊的位置) 定義的結構描述名稱加以參考。

問:Redshift Spectrum 支援哪些資料格式和壓縮格式?

Redshift Spectrum 目前支援多種開放原始碼資料格式,包括 Avro、CSV、Grok、Amazon Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、Sequence、Text 和 TSV。

Redshift Spectrum 目前支援 Gzip 和 Snappy 壓縮。

問:如果本機儲存中的表格名稱與外部表格的名稱相同會如何?

如同本機表格,您可以透過查詢中的 schema_name.table_name 使用結構描述名稱選擇您要的表格。

問:我使用 Hive 中繼存放區存放有關 S3 資料湖的中繼資料。是否可使用 Redshift Spectrum?

是。CREATE EXTERNAL SCHEMA 命令支援 Hive 中繼存放區。我們目前不針對 Hive 中繼存放區支援 DDL。

問:如何取得叢集中建立的所有外部資料庫表格清單?

您可以查詢系統表格 SVV_EXTERNAL_TABLES 以取得該資訊。

問:Redshift 支援將機器學習用於 SQL 的功能嗎?

支援,Amazon Redshift ML (預覽版) 功能可讓 SQL 使用者使用熟悉的 SQL 命令輕鬆建立、訓練和部署機器學習 (ML) 模型。Amazon Redshift ML 可讓客戶透過全受管的機器學習服務 Amazon SageMaker 利用 Amazon Redshift 中的資料。

問:Amazon Redshift 提供 API 來查詢資料嗎?

Amazon Redshift 提供了一個資料 API,可讓您使用所有類型的傳統、雲端原生、容器化、無伺服器 Web 服務式應用程式和事件驅動式應用程式,從 Amazon Redshift 存取資料。透過避免設定驅動程式和管理資料庫連線,資料 API 簡化了對 Amazon Redshift 的存取。現在只需叫用資料 API 提供的安全 API 端點,即可對 Amazon Redshift 叢集執行 SQL 命令。資料 API 會負責管理資料庫連線和緩衝資料。資料 API 具有非同步性,因此可以稍後擷取結果。您的查詢結果會儲存長達 24 小時。

問:哪些類型的登入資料可以與 Amazon Redshift 資料 API 搭配使用?

資料 API 支援 IAM 登入資料,同時可使用來自 AWS Secrets Manager 的私密金鑰。資料 API 聯合了 AWS Identity and Access Management (IAM) 登入資料,因此您可以使用身分供應商 (例如 Okta 或 Azure Active Directory) 或儲存在 Secrets Manager 中的資料庫登入資料,而無需在 API 叫用中傳遞資料庫登入資料。

問:我可以從 AWS CLI 中使用 Amazon Redshift 資料 API 嗎?

是的,您可以透過 aws redshift-data 命令列選項從 AWS CLI 使用資料 API。

問:Redshift 資料 API 與其他 AWS 服務整合嗎?

可從其他服務使用資料 API,例如 AWS Lambda、AWS Cloud9、AWS AppSync 和 Amazon EventBridge。

問:我必須為使用 Amazon Redshift 資料 API 單獨支付費用嗎?

不需要,使用資料 API 無需單獨支付費用。

監控

問:如何監控 Amazon Redshift 資料倉儲叢集的效能?

透過 AWS 管理主控台Amazon CloudWatch API,可免費提供運算使用率、儲存使用率和 Amazon Redshift 資料倉儲叢集讀/寫流量的指標。 您也可透過 Amazon CloudWatch 的自訂指標功能,新增更多使用者定義的指標。AWS 管理主控台提供監控儀表板,可協助您監控所有叢集的運作狀態和效能。Amazon Redshift 還透過 AWS 管理主控台提供關於查詢及叢集效能的資訊。這些資訊讓您能夠查看哪些使用者及查詢消耗最多的系統資源,以透過檢視查詢計劃和執行統計資料來診斷效能問題。此外,您可查看每個運算節點上的資源使用率,確保資料和查詢在所有節點之間達到平衡。

維護

問:什麼是維護時段? 資料倉儲叢集在軟體維護期間仍可供使用嗎?

Amazon Redshift 會定期執行維護,以便在叢集套用修正、增強功能和新功能。您可以透過程式設計的方式或使用 Redshift 主控台修改叢集,以變更排定的維護時段。在這些維護時段期間,將無法使用 Amazon Redshift 叢集執行一般操作。如需各區域維護時段和排程的詳細資訊,請參閱 Amazon Redshift 管理指南中的維護時段

進一步了解 Amazon Redshift 定價

瀏覽定價頁面
準備好開始建立?
Amazon Redshift 入門
還有其他問題嗎?
聯絡我們