免費試用 Amazon Redshift

開始免費試用
進一步了解

獲得每月 750 小時免費 DC2.Large,為期 2 個月。開始試用:

1. 建立 AWS 帳戶並登入 Amazon Redshift 主控台

2. 啟動 Amazon Redshift 叢集並選擇 DC2.Large 節點類型

另外,請參閱我們的合作夥伴免費試用頁面,了解如何免費導入和報告您的資料。

需要概念驗證?

請求概念驗證或評估的支援

問:什麼是 Amazon Redshift?

Amazon Redshift 是快速、全受管的資料倉儲,可讓您使用標準 SQL 及現有的商業智慧 (BI) 工具,以簡單且經濟實惠的方式分析所有資料。它可讓您使用精密的查詢優化、高效能本機磁碟的單欄式儲存及大規模平衡查詢執行,對數 PB 的結構化資料執行複雜的分析查詢。大部分的結果幾秒鐘內即可傳回。使用 Redshift,您可從每小時僅需 0.25 USD 的小規模開始,無須簽訂長期合約,然後擴展到數 PB 的資料,每年每 TB 1,000 USD,花費的成本不到傳統解決方案的十分之一。Amazon Redshift 也包含 Amazon Redshift Spectrum,讓您直接對 Amazon S3 中數 EB 的非結構化資料執行 SQL 查詢。不需要載入或轉換,而且您可以使用 Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile 和 TSV 等開放資料格式。Redshift Spectrum 會自動按擷取的資料量擴展查詢運算容量,無論資料集大小為何,都能對 Amazon S3 進行快速的查詢。

傳統的資料倉儲需要相當多的時間和資源進行管理,尤其是大型資料集。此外,與現場部署資料倉儲的建置、維護及日益增長的自我管理相關的財務成本也非常高。隨著資料的增加,您必須經常取捨哪些資料要載入資料倉儲而哪些資料要在儲存體中存檔,以便管理成本、將 ETL 複雜度保持在最低和交付絕佳的效能。Amazon Redshift 不只能大幅降低資料倉儲的成本和營運開銷,使用 Redshift Spectrum 還能輕鬆地分析大量原始格式的資料,無須載入資料。

Amazon Redshift 讓您能夠使用熟悉的 SQL 用戶端及商業智慧 (BI) 工具,透過標準 ODBC 和 JDBC 連線來快速查詢結構化的資料。這些查詢可跨多個實體資源分散且平行進行。您只要在 AWS 管理主控台按幾下滑鼠,或進行一次 API 呼叫,即可輕鬆對 Amazon Redshift 資料倉儲進行擴展或縮減。Amazon Redshift 會自動修補和備份資料倉儲,並按照使用者定義的保留期儲存備份。Amazon Redshift 利用複寫和持續備份來提高可用性並改善資料耐久性,而且可從元件和節點故障自動復原。此外,Amazon Redshift 支援 Amazon Virtual Private Cloud (Amazon VPC)、SSL、AES-256 加密和硬體安全模組 (HSM),以保護傳輸中的資料和靜態資料。

與所有 Amazon Web Services 相同,無須前期投資,只需為使用的資源付費。Amazon Redshift 可讓您按使用量付費,您甚至可以免費試用 Amazon Redshift

問:什麼是 Amazon Redshift Spectrum?

Amazon Redshift Spectrum 是 Amazon Redshift 的一項功能,可讓您對 Amazon S3 中 EB 級的非結構化資料執行查詢,無須載入或 ETL。當您發出查詢時,該查詢會傳送到 Amazon Redshift SQL 終端節點,並產生和優化查詢計劃。Amazon Redshift 會判斷哪些資料在本機而哪些資料在 Amazon S3、產生一個計劃將需要讀取的 Amazon S3 資料量減到最少、請求共用資源集區的 Redshift Spectrum 工作者以便從 Amazon S3 讀取並處理資料。

如有需要,Redshift Spectrum 可擴展到數千個執行個體,因此無論資料大小都能快速執行查詢。此外,您可以在 Amazon S3 資料使用與目前 Amazon Redshift 查詢完全一樣的 SQL,並使用相同的 BI 工具連接到相同的 Amazon Redshift 終端節點。透過 Redshift Spectrum 可以將儲存和運算分開,個別獨立擴展。您可以視需要設定無限個 Amazon Redshift 叢集以查詢 Amazon S3 資料湖,提供高可用性和無限制的並行。Redshift Spectrum 可讓您自由選擇存放資料的位置、存放的格式,而且讓您在需要處理資料時隨時可用。

問:Amazon Redshift 可代我管理哪些項目?

Amazon Redshift 可管理資料倉儲設定、操作和擴展所需的各項工作,從佈建基礎設施容量到自動化進行中的管理任務,例如備份和修補。Amazon Redshift 會自動監控節點和磁碟機,協助您從故障中恢復。對 Redshift Spectrum 而言,Amazon Redshift 會針對 Amazon S3 存放的資料管理所有運算基礎設施、負載平衡、查詢的規劃、排程和執行。

問:相較於最傳統的資料倉儲及分析用資料庫,Amazon Redshift 的效能如何?

Amazon Redshift 使用了各種創新技術,相較於傳統的資料倉儲及分析工作負載資料庫,最高可提升十倍的效能:

  • 單欄式資料儲存體:Amazon Redshift 以欄組織資料,而不是以一連串的列儲存資料。以列為基礎的系統適用於交易處理,而以欄為基礎的系統則適用於資料倉儲及分析,在這種系統的查詢經常涉及大型資料集的彙總執行。因為只會處理涉及查詢的欄,而且單欄式資料是依序存放在儲存媒體上,因此以欄為基礎的系統所需的 I/O 非常少,可大幅提高查詢效能。
  • 進階壓縮:因為單欄式資料存放區會將類似的資料依序存放在磁碟上,所以與以列為基礎的資料儲存相比可進行更大程度的壓縮。Amazon Redshift 採用多種壓縮技術,而且通常比傳統的關聯式資料存放區更能進行大幅度的壓縮。此外,Amazon Redshift 不需要索引或具體化檢視,因此,使用的空間也少於傳統的關聯式資料庫系統。將資料載入空的表格時,Amazon Redshift 會自動採樣您的資料,並選擇最適合的壓縮機制。
  • 大規模平行處理 (MPP):Amazon Redshift 會自動在所有節點分配資料及查詢負載。Amazon Redshift 可讓您輕鬆將節點新增到資料倉儲,而且隨著您的資料倉儲規模擴大,仍能維持快速的查詢效能。
  • Redshift Spectrum:Redshift Spectrum 讓您能夠對 Amazon S3 中 EB 級的資料執行查詢。無須載入或 ETL。即使沒有在 Amazon Redshift 存放任何資料,仍然可以使用 Redshift Spectrum 查詢 Amazon S3 中多達 EB 的資料集。當您發出查詢時,該查詢會傳送到 Amazon Redshift SQL 終端節點,並產生查詢計劃。Amazon Redshift 會判斷哪些資料在本機而哪些資料在 Amazon S3、產生一個計劃將需要讀取的 Amazon S3 資料量減到最小、請求共用資源集區的 Redshift Spectrum 工作者以便從 Amazon S3 讀取並處理資料,然後將結果取出並送回 Amazon Redshift 叢集以完成剩餘的處理。

問:如何開始使用 Amazon Redshift?

您在註冊後幾分鐘內就可以從 Amazon Redshift 詳細資訊頁面或透過 AWS 管理主控台開始使用 Amazon Redshift。如果您沒有 AWS 帳戶,系統會提示您建立帳戶。

要使用 Redshift Spectrum,首先必須將資料存放到 Amazon S3。接著,在 Amazon Redshift 叢集中定義有關該資料的中繼資料,或在叢集註冊已在 Hive 中繼存放區的中繼資料。您可以在 Amazon Redshift 叢集發出 CREATE EXTERNAL SCHEMA SQL 命令,將型錄中的資料庫定義或註冊為 Amazon Redshift 內的外部結構描述。接著,使用與本機表格相同的 SQL 和目前支援 Amazon Redshift 的任何 BI 工具對 Amazon S3 發出查詢。使用 Amazon Redshift SQL 建立的外部資料庫定義會在與 Amazon Athena 使用的相同資料型錄中註冊。您也可以選擇從 Amazon Athena Catalog 管理外部資料庫定義。 

瀏覽我們的入門頁面,了解如何免費試用 Amazon Redshift。

問:哪些 AWS 區域可以使用 Amazon Redshift?

如需 Amazon Redshift 區域可用性的相關資訊,請參閱 AWS 全球基礎設施頁面的區域表

問:哪些 AWS 區域可以使用 Redshift Spectrum?

Amazon Redshift Spectrum 可在以下 AWS 區域使用:美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、亞太區域 (首爾)、亞太區域 (新加坡)、亞太區域 (雪梨) 和亞太區域 (東京)。

問:如何建立 Amazon Redshift 資料倉儲叢集?

您可以使用 AWS 管理主控台Amazon Redshift API 輕鬆建立 Amazon Redshift 資料倉儲叢集。您可以先建立單一節點,然後在 AWS 主控台按幾下或進行一次 API 呼叫,就能將 160 GB 資料倉儲直接擴展到 1 PB 或更大。

單一節點設定讓您能夠以經濟實惠的方式快速開始使用 Amazon Redshift,並隨著需求增長再擴展成多節點設定。多節點設定需要一個領導節點來管理用戶端連線和接收查詢,還需要兩個運算節點來存放資料及執行查詢和運算。系統會自動佈建領導節點,不需由您執行。

您只需指定偏好的可用區域 (選擇性)、節點數量、節點類型、主機名稱和密碼、安全群組、備份保留期的偏好選項及其他系統設定。選擇好所需的設定之後,Amazon Redshift 將佈建所需的資源,並設定您的資料倉儲叢集。

問:領導節點和運算節點分別有什麼作用?

領導節點會接收來自用戶端應用程式的查詢、分析查詢並且開發執行計劃,所謂的執行計劃是一套處理這些查詢的順序步驟。然後,領導節點與運算節點會協調這些計劃的平行執行、彙總來自這些節點的中繼結果,最後將結果傳回給用戶端應用程式。

運算節點會執行在執行計劃中指定的步驟,並在它們之間傳輸資料以服務這些查詢。中繼結果在傳回用戶端應用程式之前,會傳回給領導節點進行彙總。

問:每個運算節點的最大儲存容量為何?為了優化效能,每個運算節點的建議資料量是多少?

您可以使用密集化儲存 (DS) 節點類型或密集化運算 (DC) 節點類型建立叢集。透過密集化儲存節點類型,您可以用非常低的價格使用硬碟 (HDD) 建立超大型資料倉儲。透過密集化運算節點類型,您可以使用高速 CPU、大量的 RAM 和固態硬碟 (SSD) 建立超高效能的資料倉儲。

密集化儲存 (DS) 節點類型提供兩種大小:超大型和八倍超大型。超大型 (XL) 有 3 個硬碟,總共為 2 TB 的磁帶儲存,而八倍超大型 (8XL) 有 24 個硬碟,總共為 16 TB 磁帶儲存。DS2.8XLarge 有 36 個 Intel Xeon E5-2676 v3 (Haswell) 虛擬核心和 244 GiB RAM,而 DS2.XL 有 4 個 Intel Xeon E5-2676 v3 (Haswell) 虛擬核心和 31 GiB RAM。請參閱定價頁面了解更多詳細資訊。您可以從每小時 0.85 USD 的單一超大型節點 2 TB 資料倉儲開始,然後擴展至 1 PB 或更大。您可以按小時付費或使用預留執行個體定價,將價格降低到每年每 TB 不到 1,000 USD。

密集化運算 (DC) 節點類型也提供兩種大小。大型節點有 160 GB 的 SSD 儲存、2 個 Intel Xeon E5-2670v2 (Ivy Bridge) 虛擬核心和 15 GiB 的 RAM。八倍超大型則大了 16 倍,具有 2.56 TB 的 SSD 儲存、32 個 Intel Xeon E5-2670v2 虛擬核心和 244 GiB 的 RAM。您可從每小時 0.25 USD 的單一 DC2.Large 節點開始,然後一直擴展到 128 個 8XL 節點,具有 326 TB 的 SSD 儲存、3,200 個虛擬核心和 24 TiB 的 RAM。

Amazon Redshift 的 MPP 架構表示您可以透過增加資料倉儲叢集中的節點數來提升效能。每個運算節點的最佳資料量取決於您的應用程式特性和查詢效能需求。

問:我可以為每個 Amazon Redshift 資料倉儲叢集指定幾個節點?

視節點類型而定,一個 Amazon Redshift 資料倉儲叢集可包含 1 到 128 個運算節點。關於詳細資訊,請參閱我們的文件

問:如何存取正在執行的資料倉儲叢集?

一旦您的資料倉儲叢集可供使用,您就可以從 AWS 管理主控台或用 Redshift API 擷取它的終端節點以及 JDBC 和 ODBC 連線字串。然後,您可以用偏好的資料庫工具、程式設計語言或商業智慧 (BI) 工具來使用此連線字串。您將需要將網路請求授權給正在執行的資料倉儲叢集。有關詳細說明,請參閱我們的入門指南

問:使用 Amazon Redshift 與 Amazon RDS 的時機分別為何?

Amazon Redshift 和 Amazon RDS 都讓您能夠在雲端中執行傳統關聯式資料庫,無須管理資料庫。客戶可將 Amazon RDS 資料庫同時用於線上交易處理 (OLTP) 以及報告和分析。Amazon Redshift 利用多節點的規模和資源,並使用各種優化方法,為傳統資料庫對大型資料集的分析及報告工作負載提供大幅改善。當您的資料及查詢複雜度增加時,或者,如果要防止報告和分析處理對 OLTP 工作負載造成干擾時,Amazon Redshift 可提供非常優異的擴展選項。

問:使用 Amazon Redshift 與 Amazon EMR 的時機分別為何?

如果您使用自訂程式碼處理和分析具有大數據處理架構 (如 Apache Spark、Hadoop、Presto 或 Hbase) 的龐大資料集,應該選用 Amazon EMR。Amazon EMR 讓您完全控制叢集的組態以及在叢集上安裝的軟體。

Amazon Redshift 這類資料倉儲的設計則是用於完全不同的分析類型。資料倉儲的設計旨在從庫存、財務和零售系統等大量不同的來源提取資料並將其結合在一起。為了確保整個公司的報告永遠都能準確無誤,資料倉儲以高度結構化的方式存放資料。這個結構可將資料一致性規則直接內建到資料庫的表格。

當您需要對大型的結構化資料集合執行複雜的查詢並取得超快的效能時,Amazon Redshift 是最適合的服務。

問:Redshift Spectrum 是否可取代 Amazon EMR?

否。雖然 Redshift Spectrum 非常適合對 Amazon Redshift 和 S3 中的資料執行查詢,但並不適用於企業處理架構 (像是 Amazon EMR) 時一般要求的使用案例類型。
Amazon EMR 不僅是執行 SQL 查詢,Amazon EMR 是受管服務,能夠在可完全自訂的叢集使用常用大數據處理架構 (像是 Spark、Hadoop 和 Presto) 的最新版本處理和分析非常大型的資料集。您可以利用 Amazon EMR 為應用程式執行各種各樣橫向擴展的資料處理任務,例如機器學習、圖形分析、資料轉換、資料串流,以及幾乎所有可由程式碼控制的應用程式。您還可以搭配 EMR 使用 Redshift Spectrum。Amazon Redshift Spectrum 使用與 Amazon EMR 相同的方式存放表格定義。因此,如果您已經使用 EMR 處理大型資料存放區,則可使用 Redshift Spectrum 同時查詢該資料,且不會干擾 Amazon EMR 任務。

查詢服務、資料倉儲和複雜資料處理架構都有各自的專長,適合不同的用途。您只須為工作選擇合適的工具即可。

問:使用 Amazon Athena 與 Redshift Spectrum 的時機分別為何?

Amazon Athena 是讓所有員工在 Amazon S3 資料執行臨機操作查詢最簡單的方法。Athena 是無伺服器的服務,您不須設定或管理任何基礎設施,可以立即開始分析資料。

如果您有經常存取的資料且需要以一致且高度結構化的格式存放,則應使用 Amazon Redshift 這類資料倉儲。這讓您可以用彈性的方式將經常存取的結構化資料存放在 Amazon Redshift,而且使用 Redshift Spectrum 還能將 Amazon Redshift 查詢延伸到 Amazon S3 資料湖中所有的資料。這可讓您自由選擇存放資料的位置、存放的格式,而且讓您在需要處理資料時隨時可用。

問:Redshift Spectrum 是否可以查詢透過 Amazon EMR 處理的資料?

是,Redshift Spectrum 可支援 Amazon EMR 用來找出資料和表格定義的相同 Apache Hive 中繼存放區。如果您使用 Amazon EMR 且已有 Hive 中繼存放區,只要設定 Amazon Redshift 叢集就能開始使用。接著,您就能隨著 Amazon EMR 任務立即開始查詢該資料。

問:為什麼應該使用 Amazon Redshift,而不是在 Amazon EC2 上執行我自己的 MPP 資料倉儲叢集?

Amazon Redshift 會自動處理許多與資料倉儲管理相關的耗時任務,包括:

  • 設定:使用 Amazon Redshift 時,您只需建立資料倉儲叢集、定義結構描述,就可以開始載入和查詢您的資料。代您管理所有的佈建、設定及修補工作。
  • 資料耐久性:Amazon Redshift 在您的資料倉儲叢集之內複製資料並將資料持續備份至 Amazon S3,Amazon S3 的設計宗旨是要讓耐久性達到 99.999999999%。Amazon Redshift 會將每個磁碟機的資料鏡像複製到叢集內的其他節點。如果某個磁碟機發生故障,查詢將繼續進行,只是延遲會稍微增加,同時 Redshift 會從複本重建該磁碟機。如果出現節點故障,Amazon Redshift 將自動佈建新節點,並開始從叢集內的其他磁碟機或 Amazon S3 恢復資料。它會優先恢復最頻繁查詢的資料,這樣最頻繁執行的查詢將迅速恢復功能。
  • 擴展:當容量和效能需要改變時,只需呼叫一個 API 或在 AWS 管理主控台中按幾下滑鼠,就可以在 Amazon Redshift 資料倉儲叢集中新增或移除節點。
  • 自動更新與修補:Amazon Redshift 會自動套用升級並修補資料倉儲,這樣您就能專注於應用程式本身,而不是管理。
  • EB 級查詢功能:Redshift Spectrum 讓您能夠對 Amazon S3 中 EB 級的資料執行查詢。無須載入或 ETL。即使沒有在 Amazon Redshift 存放任何資料,仍然可以使用 Redshift Spectrum 查詢 Amazon S3 中多達 EB 的資料集。

回到頁首 »

問:使用 Amazon Redshift 如何計價和收費?

僅按實際使用量收費,無最低費用或設定費用。您的計費是根據:

  • 運算節點小時 – 運算節點小時是所有運算節點在計費期間執行的小時總數。每小時每節點為一個計費單位,因此,持續執行一整個月的三節點資料倉儲叢集將產生 2,160 個執行個體小時。您無須為領導節點小時付費;只有運算節點會產生費用。
  • 備份儲存 – 備份儲存是與資料倉儲自動化及手動快照相關的儲存。延長備份保留期或增加快照拍攝數量,將增加資料倉儲所消耗的備份儲存。已啟動的資料倉儲叢集可獲得最多 100% 佈建儲存的備份儲存,並不收取其他費用。例如,如果您有一個含 2 TB 本機執行個體儲存體的作用中單一節點 XL 資料倉儲叢集,我們會提供每個月高達 2 TB 的備份儲存,並不收取其他費用。超出佈建儲存大小的備份儲存以及在您的叢集終止之後存放的備份,按標準 Amazon S3 費率計費。
  • 資料傳輸 – 相同 AWS 區域內 Amazon Redshift 與 Amazon S3 之間的資料傳輸無須支付數據傳輸費。傳入和傳出 Amazon Redshift 的所有其他資料傳輸,則需按照標準 AWS 資料傳輸費計算。
  • 掃描的資料 –使用 Redshift Spectrum 只需支付執行查詢所掃描的 Amazon S3 資料量。沒有執行查詢時無須支付 Redshift Spectrum 費用。如果以單欄格式存放資料 (如 Parquet 或 RC),您的費用會下降,因為 Redshift Spectrum 只會掃描查詢所需的欄,而不是處理整個資料列。同樣地,如果您使用 Redshift Spectrum 支援的其中一種格式來壓縮資料,費用也會下降。資料儲存按標準 Amazon S3 費率計費,而所使用的叢集則按 Amazon Redshift 執行個體費率計費。

有關 Amazon Redshift 的定價資訊,請瀏覽 Amazon Redshift 定價頁面

問:Amazon Redshift 資料倉儲叢集的開始和結束計費時間為何?

從資料倉儲叢集開始可供使用就會計費。帳單週期會一直持續到資料倉儲叢集終止為止,也就是刪除執行個體或執行個體出現故障時就會終止。

問:應計費的 Amazon Redshift 執行個體小時是如何定義的?

節點使用小時數是按照資料倉儲叢集以可供使用的狀態執行的每個小時計費。如果您不想再支付資料倉儲叢集的費用,就必須將其終止,以免產生更多應計費的節點小時數。未滿一小時的節點小時數按一小時計費。

問:價格含稅嗎?

除非另有說明,否則我們的價格不包括適用的稅金和稅收 (包括加值稅和適用的營業稅)。帳單地址在日本的客戶若使用 AWS 服務,則需負擔日本消費稅。進一步了解

回到頁首 »


問:如何將資料載入到 Amazon Redshift 資料倉儲中?

您可以從各種資料來源將資料載入到 Amazon Redshift,其中包括 Amazon S3Amazon DynamoDBAmazon EMRAWS Data Pipeline 和/或 Amazon EC2 或現場部署的任何已啟用 SSH 主機。Amazon Redshift 會嘗試將資料平行載入到每個運算節點,將資料倉儲叢集導入資料的速度提到最高。有關將資料載入 Amazon Redshift 的詳細資訊,請查看我們的入門指南

問:是否可使用 SQL 'INSERT' 陳述式載入資料?

是,用戶端可使用 ODBC 或 JDBC 連接到 Amazon Redshift,並發出 'insert' SQL 命令以插入資料。請注意,這會比使用 S3 或 DynamoDB 稍慢,因為那些方法是將資料平行載入至每個運算節點,而 SQL insert 陳述式則是透過單一領導節點載入資料。

問:如何將資料從現有的 Amazon RDS、Amazon EMR、Amazon DynamoDB 及 Amazon EC2 資料來源載入到 Amazon Redshift?

您可以使用我們的 COPY 命令,以平行方式將資料從 Amazon EMR、Amazon DynamoDB 或任何已啟用 SSH 主機直接載入到 Amazon Redshift。Redshift Spectrum 還能讓您使用簡單的 INSERT INTO 命令將資料從 Amazon S3 載入叢集。您可以使用此命令在叢集中載入不同格式的資料,像是 Parquet 和 RC。請注意,如果您使用這種方法,將會累計從 Amazon S3 掃描資料的 Redshift Spectrum 費用。

不僅如此,許多 ETL 公司也已認證 Amazon Redshift 可與他們的工具搭配使用,其中部分還提供免費試用,協助您開始載入資料。AWS Data Pipeline 提供一個高效能、可靠且容錯的解決方案,可從各種 AWS 資料來源載入資料。您可以使用 AWS Data Pipeline 指定資料來源和所需的資料轉換,然後執行預先寫好的匯入指令碼,將資料載入到 Amazon Redshift。同時,AWS Glue 是全受管的擷取、轉換和載入 (ETL) 服務,可輕鬆準備資料以及載入資料用於分析。只要在 AWS 管理主控台按幾下,就可以建立並執行 AWS Glue ETL 任務。

問:我有許多資料是第一次載入到 Amazon Redshift。透過網際網路傳輸會耗費很長的時間。我要如何載入這些資料?

您可以使用可攜式儲存裝置,透過 AWS Import/Export 將資料傳輸至 Amazon S3。此外,您可以使用 AWS Direct Connect 在您的網路或資料中心和 AWS 之間建立私有網路連線。您可以選用 1 Gbit/秒或 10 Gbit/秒的連接埠來傳輸資料。

回到頁首 »


問:Amazon Redshift 如何保護資料的安全?

Amazon Redshift 使用產業標準加密技術進行資料加密,確保傳輸中和靜態資料的安全。為了確保傳輸中的資料安全,Amazon Redshift 支援用戶端應用程式及 Redshift 資料倉儲叢集之間的已啟用 SSL 連線。而為了確保靜態資料安全,Amazon Redshift 使用硬體加速型 AES-256,在寫入磁碟時加密每個區塊。這是在 I/O 子系統中的低層級進行,會對寫入磁碟的所有資料進行加密,包括中繼查詢結果。區塊會按原來狀態備份,這表示備份也會加密。在預設情況下,Amazon Redshift 會負責金鑰管理,但您可以選擇使用自己的硬體安全模組 (HSM) 管理金鑰或透過 AWS Key Management Service 來管理金鑰。

Redshift Spectrum 支援使用 AWS Key Management Service (KMS) 管理之帳戶預設金鑰的 Amazon S3 伺服器端加密 (SSE)。

問:是否可在 Amazon Virtual Private Cloud (Amazon VPC) 使用 Amazon Redshift?

是,您可以將 Amazon Redshift 做為 VPC 設定的一部分使用。透過 Amazon VPC,您可以定義一個與自己資料中心內執行的傳統網路非常相似的虛擬網路拓撲。這讓您能夠完全控制誰能存取您的 Amazon Redshift 資料倉儲叢集。

您可以使用 Redshift Spectrum 搭配屬於 VPC 的 Amazon Redshift 叢集。請注意,Redshift Spectrum 目前不支援增強型 VPC 路由

問:是否可以直接存取 Amazon Redshift 運算節點?

否。您的 Amazon Redshift 運算節點位於私有網路空間,只能從資料倉儲叢集的領導節點存取。這可為您的資料安全性提供多一層保護。

回到頁首 »


問:如果其中一個節點上的磁碟機發生故障,對資料倉儲叢集的可用性和耐久性有何影響?

如果某個磁碟機發生故障,Amazon Redshift 資料倉儲叢集仍然可供使用,不過您會發現某些查詢的效能略有下降。Amazon Redshift 在某個磁碟機發生故障時,將通透地使用該磁碟機上的節點複本,也就是存放在該節點內其他磁碟機上的複本。此外,Amazon Redshift 會嘗試將您的資料移動到正常運作的磁碟機,或在無法移動資料時替換您的節點。單一節點叢集不支援資料複寫。如果發生磁碟機失敗,您需要從 S3 上的快照還原叢集。我們建議您至少要為生產環境使用兩個節點。

問:如果個別節點發生故障,對資料倉儲叢集可用性和資料耐久性有何影響?

Amazon Redshift 將自動偵測並替換資料倉儲叢集中的故障節點。資料倉儲叢集必須等到替換節點佈建並新增至資料庫之後,才能提供進行查詢和更新。Amazon Redshift 會讓替換節點立即可供使用,並先從 S3 載入最頻繁存取的資料,讓您儘快恢復資料查詢。單一節點叢集不支援資料複寫。如果發生磁碟機失敗,您需要從 S3 上的快照還原叢集。我們建議您至少要為生產環境使用兩個節點。

問:如果資料倉儲叢集的可用區域 (AZ) 出現故障,對資料倉儲叢集可用性和資料耐久性有何影響?

如果 Amazon Redshift 資料倉儲叢集的可用區域無法使用,那麼在 AZ 的電力及網路存取恢復之前,將無法使用您的叢集。資料倉儲叢集的資料會保留,因此一旦 AZ 重新可供使用,您就能開始使用 Amazon Redshift 資料倉儲。此外,您也可選擇將任何現有快照恢復到同一區域中的新 AZ。Amazon Redshift 會先恢復最頻繁存取的資料,這樣您就能儘快地恢復查詢。

問:Amazon Redshift 是否支援異地同步備份部署?

目前,Amazon Redshift 僅支援單一可用區部署。透過將資料從同一組 Amazon S3 輸入檔載入到不同 AZ 的兩個 Amazon Redshift 資料倉儲叢集,便可在多個 AZ 中執行資料倉儲叢集。您可以使用 Redshift Spectrum 跨可用區域啟動多個叢集並存取 Amazon S3 中的資料,無須將其載入您的叢集。此外,您也可以將資料倉儲叢集從資料倉儲叢集快照恢復至不同的 AZ。

回到頁首 »


問:Amazon Redshift 如何備份資料?

載入資料時,Amazon Redshift 會複製資料倉儲叢集內的所有資料,並將其持續備份至 S3。Amazon Redshift 會一直嘗試至少維護三份資料 (運算節點上的原始資料和複本,以及 Amazon S3 中的備份)。Redshift 還能將您的快照以非同步方式複製到另一個區域的 S3 以進行災難復原。

問:Amazon Redshift 會將備份保留多長時間?該時間是否可設定?

在預設情況下,Amazon Redshift 會保留備份一天。最長可設定為 35 天。

問:如何從備份恢復 Amazon Redshift 資料倉儲叢集?

您可在備份保留時段內存取所有自動化備份。一旦選擇某個要恢復的備份,我們就會佈建新的資料倉儲叢集,並將資料恢復至此叢集。

問:我需要為資料倉儲叢集啟用備份,還是它會自動啟用?

在預設情況下,Amazon Redshift 以一天的保留期啟用資料倉儲叢集自動化備份。免費備份儲存限制為資料倉儲叢集中節點上的總儲存大小,且僅適用於作用中的資料倉儲叢集。例如,如果您共有 8 TB 的資料倉儲儲存,我們將提供最多 8 TB 的備份儲存,且不收取其他費用。如果您要將備份保留期延長為超過一天,可以使用 AWS 管理主控台Amazon Redshift API 執行此操作。如需自動快照的詳細資訊,請參閱 Amazon Redshift Management Guide。Amazon Redshift 只會備份已變更的資料,因此大多數快照僅佔用少量的免費備份儲存。

問:如何管理自動備份及快照的保留?

您可以使用 AWS 管理主控台或 ModifyCluster API 修改 RetentionPeriod 參數,以管理自動備份的保留期。如果您希望完全關閉自動備份,可以將保留期設為 0 (不建議)。

問:如果刪除資料倉儲叢集,對備份有何影響?

在您刪除資料倉儲叢集時,可以指定是否在刪除時建立最終快照,這樣就可以在日後還原所刪除的資料倉儲叢集。之前建立的所有資料倉儲叢集手動快照都會保留,並按照標準 Amazon S3 費率計費,除非您選擇將它們刪除。

回到頁首 »


問:如何擴展 Amazon Redshift 資料倉儲叢集的大小和效能?

如果您想提高查詢效能或對 CPU、記憶體或 I/O 的過度使用做出回應,則可透過 AWS 管理主控台或 ModifyCluster API 來增加資料倉儲叢集內的節點數量。當您修改資料倉儲叢集時,所請求的更改會立即套用。透過 AWS 管理主控台或 Amazon CloudWatch API,可免費提供運算使用率、儲存使用率和 Amazon Redshift 資料倉儲叢集讀/寫流量的指標。您也可透過 Amazon Cloudwatch 的自訂指標功能,新增更多使用者定義的指標。

使用 Redshift Spectrum 可以執行存取相同 Amazon S3 資料的多個 Amazon Redshift 叢集。您可以在不同的使用案例使用不同的叢集。例如,您可以使用一個叢集執行標準報告,然後使用另一個叢集執行資料科學查詢。行銷團隊可使用自己的叢集,無須與營運團隊使用一樣的叢集。Redshift Spectrum 會根據本機叢集的節點類型和數量以及查詢所需處理的檔案數量,將查詢自動分發到共享資源集區的多個 Redshift Spectrum 工作者執行,以讀取和處理 Amazon S3 中的資料,並將結果放回 Amazon Redshift 叢集以進行後續的其他處理。

問:擴展期間是否仍可使用資料倉儲叢集?

現有的資料倉儲叢集仍然可進行讀取操作,但在擴展操作期間會建立新的資料倉儲叢集。當新資料倉儲叢集準備好之後,現有的資料倉儲叢集將暫時無法使用,而現有資料倉儲叢集的正式名稱記錄會翻轉以指向新的資料倉儲叢集。這段無法使用的時間通常只持續幾分鐘,而且會發生在資料倉儲叢集的維護時段期間,除非您指定立即套用修改。Amazon Redshift 會將資料從現有資料倉儲叢集平行移動至新叢集中的運算節點。這可讓您的操作儘快完成。

回到頁首 »


問:Amazon Redshift 與我偏好的商業智慧軟體套件及 ETL 工具相容嗎?

Amazon Redshift 使用產業標準 SQL,並可使用標準 JDBC 和 ODBC 驅動程式存取。您可以從主控台的連線用戶端標籤下載 Amazon Redshift 自訂 JDBC 和 ODBC 驅動程式。我們與熱門的 BI 和 ETL 供應商進行的整合已經獲得驗證,其中許多都提供免費試用,以協助您開始載入和分析資料。您也可以前往 AWS Marketplace,只需幾分鐘,就可以部署和設定專門為與 Amazon Redshift 搭配使用而設計的解決方案。

問:Redshift Spectrum 支援哪些類型的查詢?

在 Redshift Spectrum 中使用的查詢語法和存取表格的查詢功能與叢集本機儲存中的表格完全一樣。外部表格使用 CREATE EXTERNAL SCHEMA 命令 (其註冊的位置) 定義的結構描述名稱加以參考。

問:如果本機儲存中的表格名稱與外部表格的名稱相同會如何?

如同本機表格,您可以透過查詢中的 schema_name.table_name 使用結構描述名稱選擇您要的表格。

問:Redshift Spectrum 支援哪些 BI 工具和 SQL 用戶端?

Redshift Spectrum 支援所有 Amazon Redshift 用戶端工具。用戶端工具可使用 ODBC 或 JDBC 連線持續連接到 Amazon Redshift 叢集終端節點。不需要進行任何變更。

問:Redshift Spectrum 支援哪些資料格式?

Redshift Spectrum 目前支援多種開放原始碼資料格式,包括 Avro、CSV、Grok、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile 和 TSV。

問:Redshift Spectrum 支援哪些壓縮格式?

Redshift Spectrum 目前支援 Gzip 和 Snappy 壓縮。

問:我使用 Hive 中繼存放區存放有關 S3 資料湖的中繼資料。是否可使用 Redshift Spectrum?

是。CREATE EXTERNAL SCHEMA 命令支援 Hive 中繼存放區。我們目前不針對 Hive 中繼存放區支援 DDL。

問:如何取得叢集中建立的所有外部資料庫表格清單?

您可以查詢系統表格 SVV_EXTERNAL_TABLES 以取得該資訊。


問:如何監控 Amazon Redshift 資料倉儲叢集的效能?

透過 AWS 管理主控台或 Amazon CloudWatch API,可免費提供運算使用率、儲存使用率和 Amazon Redshift 資料倉儲叢集讀/寫流量的指標。您也可透過 Amazon Cloudwatch 的自訂指標功能,新增更多使用者定義的指標。除了 CloudWatch 指標之外,Amazon Redshift 還透過 AWS 管理主控台提供關於查詢及叢集效能的資訊。這些資訊讓您能夠查看哪些使用者及查詢消耗最多的系統資源,並診斷效能問題。此外,您可查看每個運算節點上的資源使用率,確保資料和查詢在所有節點之間達到平衡。

問:我注意到有些存取叢集資料的查詢執行速度較 Redshift Spectrum 查詢慢。為什麼會這樣?

Amazon Redshift 查詢是在叢集資源對本機磁碟執行查詢,Redshift Spectrum 查詢則是使用每個查詢擴展資源對 S3 資料執行查詢。對大多數查詢而言,本機磁碟的速度較快,但對於需要掃描大量資料並執行最少運算處理的查詢,我們可以套用大量的 Redshift Spectrum 工作者並快速完成這些查詢。


問:什麼是維護時段?資料倉儲叢集在軟體維護期間仍可供使用嗎?

Amazon Redshift 會定期執行維護,以便在叢集套用修正、增強功能和新功能。您可以透過程式設計的方式或使用 Amazon Redshift 主控台修改叢集,以變更排定的維護時段。在這些維護時段期間,將無法使用 Amazon Redshift 叢集執行一般操作。如需各區域維護時段和排程的詳細資訊,請參閱 Amazon Redshift Management Guide 中的 Maintenance Windows

回到頁首 »