一般問題

造訪最新消息頁面,以找到關於 Amazon Redshift 的最新消息。
瀏覽文件以檢視更多詳細資訊和使用指導。

問:什麼是 Amazon Redshift?

Amazon Redshift 是全受管、可擴展的雲端資料倉儲,能以具規模的快速、簡易且安全的分析加快您獲得洞察的時間。已有數千客戶倚賴 Amazon Redshift 分析 TB 至 PB 量級的資料,執行複雜的分析查詢。您可遍及操作資料庫、資料湖、資料倉儲和第三方資料集,從所有資料取得即時洞察和預測性分析。Amazon Redshift 以較其他現成雲端資料倉儲更優高達三倍的價格效能提供所有這些功能,協助您持續能夠預測成本。

Amazon Redshift Serverless 可讓您輕鬆在幾秒內執行 PB 量級的分析,無需設定及管理資料倉儲叢集即可迅速獲得洞察。Amazon Redshift Serverless 能自動佈建和擴展資料倉儲的容量,為高要求及無法預測的工作負載提供高效能,而且您只需按照所使用的資源付費。

問:客戶之所以選擇 Amazon Redshift 最大的理由是什麼?

之所以有數千客戶選擇以 Amazon Redshift 加快獲得洞察的時間,是因其易用、能在任何規模發揮效能,還可讓您分析所有資料。Amazon Redshift 是全受管服務,佈建與無伺服器兩種選項皆提供,讓您無需管理資料倉儲,即可輕鬆執行分析及擴展其規模。您能為可預測的工作負載選擇佈建選項,亦可採用 Amazon Redshift Serverless 選項自動佈建及擴展資料倉儲的容量,為高要求及無法預測的工作負載提供高效能。能以較其他現成雲端資料倉儲更優高達 3 倍的價格效能在任何規模之下發揮效能,協助您持續能夠預測成本。Amazon Redshift 讓您能遍及操作資料庫、資料湖、資料倉儲和數千個第三方資料集,對所有資料執行即時與預測性分析,獲得洞察。Amazon Redshift 能為您維持靜態與傳輸中資料的安全,並且遵循內外合規要求。能支援領導產業的安全,保護您傳輸中與靜態的資料,並且遵循 SOC1、SOC2、SOC3 及 PCI DSS Level 1 合規要求。所有 Redshift 安全與合規功能皆已包含在內,無須額外成本。

問:Amazon Redshift 如何簡化資料倉儲管理?

Amazon Redshift 為 AWS 全受管,您不必再操心資料倉儲管理任務,例如硬體佈建、軟體修補、設定、組態、監控節點和磁碟機以自故障復原,或是備份。由 AWS 代您管理資料倉儲的設定、操作及擴展所需的工作,讓您專心建置應用程式。Amazon Redshift 還具備自動調校功能,同時在 Redshift Advisor 中提供用於管理倉儲的推薦。對 Redshift Spectrum 而言,Amazon Redshift 會針對 Amazon S3 中存放的資料管理所有運算基礎設施、負載平衡、查詢的規劃、排程和執行。無伺服器選項能自動佈建和擴展資料倉儲的容量,為高要求及無法預測的工作負載提供高效能,而且您只需按照所使用的資源付費。

問:Amazon Redshift 的效能與其他資料倉儲相較表現如何?

TPC-DS 基準測試結果顯示 Amazon Redshift 一開始使用即具有最佳價格效能,即使是相對小型的 3 TB 資料集也可見效果。Amazon Redshift 提供比其他雲端資料倉儲更高 3 倍的價格效能。換言之,您無需手動調校,即可從一開始即享有 Amazon Redshift 領先價格效能帶來的利益。 使用 Amazon Redshift 取得比其他雲端資料倉儲更高 3 倍的價格效能 | AWS 大數據部落格。

Amazon Redshift 採用各種創新,在資料倉儲和分析工作負載上達到較傳統資料庫更優高達 10 倍的效能,包括大規模行處理 (MPP) 運算叢集的高效讀取優化單欄式壓縮資料儲存,能線性擴展為數百個節點。Amazon Redshift 以欄組織資料,而不是以一連串的列存放資料。將資料負載至入空的表格時,Amazon Redshift 會自動採樣您的資料,並選擇最適合的壓縮機制。

Redshift Spectrum 讓您能夠對 Amazon S3 中 EB 級的資料執行查詢。無須載入或擷取、轉換和載入 (ETL)。即使沒有在 Amazon Redshift 存放任何資料,仍然可以使用 Redshift Spectrum 查詢 Amazon S3 中多達 EB 的資料集。具體化檢視可大幅拉升查詢效能,加速處理重複且可預測的分析工作負載,例如儀表板、商業智慧 (BI) 工具查詢,以及 ELT 資料處理。您可以利用具體化檢視來存放預先運算的查詢結果,並以增量方式處理來源表格的最新變更,有效維護這些查詢結果。參考具體化檢視的後續查詢使用預先運算的結果以更快地執行,同時使用自動重新整理和查詢重新寫入功能來簡化具體化檢視的使用並實現自動化。

內部部署資料倉儲的運算和儲存容量受內部部署硬體的約束所限制。Amazon Redshift 使您能夠根據需要獨立擴展運算和儲存,以滿足不斷變化的工作負載。有了 Redshift Managed Storage (RMS),您就有能力使用 Amazon S3 儲存將儲存量擴展為 PB 級。

自動表格優化 (ATO) 是一種自我調校功能,有助於您發揮建立最佳排序和分佈金鑰的效能優勢,而無需手動操作。ATO 能觀察查詢如何與表格互動,使用機器學習 (ML) 來選擇最合適的排序和分佈金鑰,以優化叢集工作負載的效能。與沒有 ATO 的叢集相比,使用 3TB 和 30TB 的 TPC-DS 基準,ATO 優化顯示出分別將叢集效能提高了 24% 和 34%。自動 Vacuum 刪除、自動表格排序和自動分析等其他功能可避免對 Redshift 叢集進行手動維護和調校,從而為新叢集和生產工作負載取得最佳效能。

工作負載管理可讓您將查詢路由至一組預先定義的佇列,以管理叢集的並行和資源使用率。目前,Amazon Redshift 自動與手動兩種組態類型皆有。若採用手動 WLM 組態,由您負責定義分配給各個佇列的記憶體量以及查詢的最大數量,各自取得該記憶體的一小部份,可在其各個佇列中執行。手動 WLM 組態不順應您工作負載之中的變更,需要對查詢的資源使用率有清楚的了解方能做得恰當。Amazon Redshift Auto WLM 無需您為佇列定義記憶體使用率或是並行。而是能夠動態性地調整並行,達到最佳輸送量。您可選擇性地定義佇列優先級,根據商業優先考量提供查詢的偏好資源分配。Auto WLM 也提供強大的工具,可供您管理工作負載。查詢優先級可讓您定義工作負載的優先順序,以便在 Amazon Redshift 中獲得優待處理,包括忙碌時段為維持一致的查詢效能而提供更多資源;查詢監控規則則能用以管理意外情形,例如偵測和防止失控,或任由價昂的查詢消耗系統資源。Auto WLM 具有調適型並行效能提升的主要領域如下:記憶體適當分配、免除佇列之間的記憶體靜態分割,以及輸送量提高。

Amazon Redshift Advisor 透過分析叢集的工作負載和用量指標來制定自訂推薦,以提高效能並優化成本。請登入 Amazon Redshift 主控台以檢視 Advisor 的推薦。如需詳細資訊,請參閱使用 Amazon Redshift Advisor 的推薦

問:如何開始使用 Amazon Redshift?

只要在 AWS 管理主控台按幾下,就能開始查詢資料。您可利用預先負載的採樣資料集,包括基準資料集 TPC-H、TPC-DS 及其他採樣查詢,立即開始分析。您可從 Amazon S3、Amazon Redshift 資料共用,或從現有 Amazon Redshift 所佈建的叢集快照復原,建立資料庫、結構描述、表格及負載資料。也能以開放格式直接查詢資料,例如 Amazon S3 資料湖中的 Parquet 或 ORC,亦可查詢操作資料庫中的資料,例如 Amazon Aurora、Amazon RDS PostgreSQL 和 MySQL。

若要開始使用 Amazon Redshift Serverless,請選擇「試用 Amazon Redshift Serverless」,開始查詢資料。Amazon Redshift Serverless 能自動擴展,滿足一切增加的工作負載。

問:我能否獲得幫助以進一步了解並加入 Amazon Redshift?

答:是,Amazon Redshift 專家可回答問題並提供支援。聯絡我們,您將在一個工作日內收到我們的回覆,討論 AWS 如何幫助您的組織。

問:什麼是適用於 Amazon Redshift 的進階查詢加速器 (AQUA)?

進階查詢加速器 (AQUA) 是新的分散式與硬體加速快取,可自動提升某些類型查詢的執行速度,從而讓 Amazon Redshift 查詢的執行速度比其他企業雲端資料倉儲更上 10 倍。AQUA 隨 RA3.16xlarge、RA3.4xlarge 或 RA3.xlplus 節點可用,不額外收費,也不必變更程式碼。

問:如何為 Redshift 資料倉儲啟用/停用 AQUA?

對於在 RA3 節點上執行的 Redshift 叢集,您可以使用 Redshift 主控台、AWS Command Line Interface (CLI) 或 API 在叢集級別啟用/停用 AQUA。對於在 DC、DS 或上一代節點上執行的 Redshift 叢集,您必須先升級至 RA3 節點再啟用/停用 AQUA。

問:AQUA 可加速哪些類型的査詢?

AQUA 透過在儲存層附近執行資料密集型任務 (如掃描、篩選和彙總) 來加速分析査詢。對於需要大量掃描的査詢,尤其是那些使用 LIKE 和 SIMILAR_TO 述詞的査詢,您將看到最顯著的效能改進。隨著時間的推移,AQUA 可加速的査詢類型將會新增。

問:如何知道 Redshift 叢集上的哪些査詢是由 AQUA 加速的?

您可以查詢系統表以查看 AQUA 加速的査詢。

問:什麼是 Amazon Redshift 受管儲存?

Amazon Redshift 受管儲存可用於無伺服器和 RA3 節點類型,讓您獨立擴展並支付運算和儲存的費用,因此可以僅依據運算需求調整叢集大小。它自動使用高效能 SSD 的本機儲存作為第 1 層快取,並利用資料區塊溫度、資料區塊使用期限和工作負載模式等優化手段來提供高效能,同時於需要時自動將儲存擴展到 Amazon S3,而無需任何動作。

問:我該如何使用 Amazon Redshift 的受管儲存?

如果您已經在使用 Amazon Redshift Dense Storage 或 Dense Compute 節點,可以使用「彈性調整大小」將現有叢集升級到新的運算執行個體 RA3。使用 RA3 執行個體的 Amazon Redshift Serverless 和叢集可自動使用 Redshift 受管儲存以存放資料。除使用 Amazon Redshift Serverless 或 RA3 執行個體之外,利用此項功能無需其他動作。

問:什麼是 Amazon Redshift Spectrum?

Amazon Redshift Spectrum 是 Amazon Redshift 的一項功能,可讓您對 Amazon S3 中的資料湖執行查詢,無需資料負載或 ETL。當您發出 SQL 查詢時,該查詢會傳送到 Amazon Redshift 端點,並產生和優化查詢計劃。Amazon Redshift 會判斷哪些資料在本機而哪些資料在 Amazon S3、產生一個計劃將需要讀取的 S3 資料量減到最少、請求共用資源集區的 Amazon Redshift Spectrum 工作者以便從 S3 讀取並處理資料。

問:何時應該考慮使用 RA3 執行個體?

以下案例中,請考量選擇 RA3 節點類型:

  • 您需要運算與儲存分開擴展及支付的靈活性。
  • 您查詢總計資料的一小部分。
  • 您的資料量迅速成長,或預計將迅速成長。
  • 您想要得到單純基於效能需求以調整叢集大小的靈活性。

隨著資料的規模持續成長至逼近 PB 級,您擷取入 Amazon Redshift 資料倉儲的資料量也相應增加。您自然而然會想找尋方法,以經濟地分析所有資料。

有了帶有受管儲存的新型 Amazon Redshift RA3 執行個體,您可基於效能需求選擇節點數量,僅支付所使用的受管儲存費用。如此即可賦予您靈活性,能根據日常處理的資料量調整 RA3 叢集大小,同時又不增加儲存成本。建置在 AWS Nitro System 之上的 RA3 執行個體附受管儲存,能對熱資料使用高效能的 SSD、對冷資料使用 Amazon S3,於是可發揮易用、經濟的儲存,且又快速查詢的效能。

問:使用 Amazon Redshift 與Amazon RDS 的時機分別為何?

Amazon Redshift 與 Amazon Relational Database Service (RDS) 都能讓您在雲端執行傳統關聯式資料庫,無需管理資料庫。客戶主要將 Amazon RDS 資料庫用於線上交易處理 (OLTP) 工作負載,而 Amazon Redshift 則主要用於報告和分析。OLTP 工作負載需要快速查詢特定資訊,並支援例如插入、更新和刪除,並且最好由 Amazon RDS 處理的交易。Amazon Redshift 利用多節點的規模和資源,並使用各種優化方法,為傳統資料庫針對極大型資料集的分析及報告工作負載提供大幅改善。當您的資料及查詢複雜度增加時,如果要防止報告和分析處理對 OLTP 工作負載的效能造成干擾,Amazon Redshift 可提供非常優異的擴展選項。現在,透過新的聯合查詢功能,您可以利用 Amazon Redshift 輕鬆地查詢 Amazon RDS 或 Aurora 資料庫服務的資料。

問:使用 Amazon Redshift 或 Redshift Spectrum 與Amazon EMR 的時機分別為何?

如果您使用自訂程式碼處理和分析具有大數據處理框架 (如 Apache Spark、Hadoop、Presto 或 Hbase) 的龐大資料集,應該使用 Amazon EMR。Amazon EMR 讓您完全控制叢集的組態以及在叢集上安裝的軟體。

Amazon Redshift 這類資料倉儲的設計則是用於完全不同的分析類型。資料倉儲的設計旨在從庫存、財務和零售系統等大量不同的來源提取資料並將其結合在一起。為了確保整個公司的報告永遠都能準確無誤,資料倉儲以高度結構化的方式存放資料。這個結構可將資料一致性規則直接內建到資料庫的表格。當您需要對大型的結構化和半結構化資料集合執行複雜的查詢並取得快速的效能時,Amazon Redshift 是最適合的服務。

雖然 Redshift Spectrum 功能非常適合對 Amazon Redshift 和 S3 中的資料執行查詢,但並不適用於企業處理框架 (像是 Amazon EMR) 時一般要求的使用案例類型。Amazon EMR 不僅是執行 SQL 查詢。Amazon EMR 是受管服務,能夠在可完全自訂的叢集使用常用大數據處理框架 (像是 Spark、Hadoop 和 Presto) 的最新版本處理和分析非常大型的資料集。您可以利用 Amazon EMR 為應用程式執行各種橫向擴展的資料處理任務,例如機器學習、圖形分析、資料轉換、資料串流,以及幾乎所有可由程式碼控制的應用程式。

您可以搭配 EMR 使用 Redshift Spectrum。Redshift Spectrum 使用與 Amazon EMR 相同的方式存放表格定義。Redshift Spectrum 可支援 Amazon EMR 用來找出資料和表格定義的相同 Apache Hive 中繼存放區。如果您使用 Amazon EMR 且已有 Hive 中繼存放區,只要設定 Amazon Redshift 叢集就能開始使用。接著,您就能隨著 Amazon EMR 任務立即開始查詢該資料。因此,如果您已經使用 EMR 處理大型資料存放區,則可使用 Redshift Spectrum 同時查詢該資料,且不會干擾 Amazon EMR 任務。

查詢服務、資料倉儲和複雜資料處理框架都有各自的專長,適合不同的用途。您只須為任務選擇合適的工具即可。

問:使用 Amazon Athena 與Amazon Redshift Spectrum 的時機分別為何?

Amazon Athena 是一種互動式查詢服務,可讓您使用標準 SQL 輕鬆分析 Amazon S3 中的資料。Athena 很容易使用。只需指向 S3 中的資料,定義結構描述,然後使用標準 SQL 開始查詢即可。

Redshift Spectrum 是 Amazon Redshift 的一項功能。如您需要以效能最高且嚴格的服務水準協議 (SLA) 分析經常存取的資料,則應使用 Amazon Redshift。您可使用 Redshift Spectrum 將 Amazon Redshift 查詢擴大延伸至 Amazon S3 資料湖中較為不常存取的資料。這可讓您自由選擇存放資料的位置、存放的格式,而且讓您在需要處理資料時隨時可用。

問:為什麼應該使用 Amazon Redshift,而不是在 Amazon EC2 上執行我自己的 MPP 資料倉儲叢集?

Amazon Redshift 會自動處理許多與資料倉儲管理相關的耗時任務,包括:
  • 設定:使用 Amazon Redshift 時,您只需建立資料倉儲叢集、定義結構描述,就可以開始載入和查詢您的資料。您無須管理佈建、組態或修補。
  • 資料耐久性:Amazon Redshift 在您的資料倉儲叢集之內複製資料並將資料持續備份至 Amazon S3,Amazon S3 的設計宗旨是要讓耐久性達到 99.999999999%。Amazon Redshift 會將每個磁碟機的資料鏡像複製到叢集內的其他節點。如果某個磁碟機發生故障,查詢將繼續進行,只是延遲會稍微增加,同時 Redshift 會從複本重建該磁碟機。如果出現節點故障,Amazon Redshift 將自動佈建新節點,並開始從叢集內的其他磁碟機或 Amazon S3 恢復資料。它會優先恢復最頻繁查詢的資料,這樣最頻繁執行的查詢將迅速恢復功能。
  • 擴展:當容量和效能需要改變時,只需呼叫一個 API 呼叫或在 AWS 管理主控台中按幾下滑鼠,就可以在 Amazon Redshift 資料倉儲叢集中新增或移除節點。您也可以使用 Amazon Redshift 中的排程器功能,安排擴展和調整操作大小的時間。
  • 自動更新與修補:Amazon Redshift 會自動套用升級並修補資料倉儲,這樣您就能專注於應用程式本身,而不是管理。
  • EB 級查詢功能:Amazon Redshift Spectrum 讓您能夠對 Amazon S3 中 EB 級的資料執行查詢。無須負載或 ETL。即使沒有在 Amazon Redshift 存放任何資料,仍然可以使用 Redshift Spectrum 查詢 Amazon S3 中多達 EB 的資料集。

問:如何建立和存取 Amazon Redshift 資料倉儲叢集?

您可以使用 AWS 管理主控台Amazon Redshift API,輕鬆建立 Amazon Redshift 資料倉儲叢集。您可以先建立單一節點,然後在 AWS 主控台按幾下或進行一次 API 呼叫,就能將 160 GB 資料倉儲直接擴展到數 PB 或更大。

單一節點組態最適合用於評估或開發/測試工作負載,讓您能夠以經濟實惠的方式快速開始使用 Amazon Redshift,並隨著需求增長再擴充規模成為多節點組態。視節點類型而定,一個 Redshift 資料倉儲叢集可包含 1 到 128 個運算節點。對於最新一代的節點類型 RA3,最小節點數為二。請參閱文件了解詳細資訊。

多節點組態需要一個領導節點來管理用戶端連線和接收查詢,還需要兩個運算節點來存放資料及執行查詢和運算。系統會自動佈建與運算節點大小相同的領導節點,不需由您執行也無需付費。

您只需指定偏好的可用區域 (選擇性)、節點數量、節點類型、主要名稱和密碼、安全群組、備份保留期的偏好選項及其他系統設定。選擇好所需的設定之後,Amazon Redshift 將佈建所需的資源,並設定您的資料倉儲叢集。

一旦您的資料倉儲叢集可供使用,您就可以從 AWS 管理主控台或用 Redshift API 擷取它的端點以及 JDBC 和 ODBC 連線字串。然後,您可以用偏好的資料庫工具、程式設計語言或商業智慧 (BI) 工具來使用此連線字串。您將需要將網路請求授權給正在執行的資料倉儲叢集。有關詳細說明,請參閱我們的入門指南

問:為什麼應該使用 Amazon Redshift Spatial?

Amazon Redshift 空間可提供基於位置的分析,讓您從資料取得豐富的洞察。能將空間與商業資料兩相無縫整合,為作出決策提供分析。Amazon Redshift 於 2019 年 11 月啟動原生空間資料處理支援,包括多態資料類型 GEOMETRY 和數個關鍵性的 SQL 空間函數。我們現可支援 GEOGRAPHY 資料類型,我們的 SQL 空間函式庫也成長為 80 個。我們支援所有常見空間資料類型和標準,包括 Shapefiles、GeoJSON、WKT、WKB、eWKT 及 eWKB。如欲進一步了解,請瀏覽文件頁面或 Amazon Redshift 空間教學頁面。

問:什麼是冷查詢效能增強,同時 Amazon Redshift 是如何增強冷查詢的效能?

需要對查詢進行編譯時,Amazon Redshift 處理的速度提升高達 2 倍。在您建立新的 Redshift 叢集,在現有叢集內建新的工作負載,或是對現有叢集進行軟體更新之後,這一改進能夠為您提供更出色的查詢效能。這些查詢效能改進無需額外成本即可為您提供,無需採取任何動作即可在叢集上啟用。

透過冷查詢效能增強,除了叢集領導節點的運算資源,查詢編譯還可擴展至無伺服器編譯服務。Amazon Redshift 支援無限快取,以便在您的任務關鍵型查詢提交至 Amazon Redshift 時存放編譯的物件,並將快取命中率從 99.60% 增加至 99.95%。

在將查詢傳送至 Amazon Redshift 時,查詢執行引擎會將查詢編譯為機器程式碼,並將其分配至叢集節點。編譯的程式碼執行速度更快,因為它免除使用解譯程式的負擔。若是沒有程式碼快取的新叢集,或是現有叢集升級至最新版本之後,則會排清程式碼快取,且查詢必須經過查詢編譯。因此,查詢延遲可能會有所差異,這可能無法滿足某些工作負載的要求。透過此次更新,無限快取可以最大程度地減少編譯程式碼的需要,並且在需要編譯時,可擴展的編譯陣列將對其平行編譯以加速處理工作負載。提速數量級取決於工作負載的複雜性和並行性。若要進一步了解程式碼編譯,請參閱資料庫開發人員指南中的查詢處理

無伺服器

問:什麼是 Amazon Redshift Serverless (預覽版)?

Amazon Redshift Serverless (預覽版) 是 Amazon Redshift 的無伺服器選項,能在幾秒內輕鬆執行及擴展分析,無需設定和管理資料倉儲基礎設施。使用 Redshift Serverless,任何使用者—包括資料分析師、開發人員、商業專業人員和資料科學家—只需負載並查詢資料倉儲中的資料,便能從資料獲得洞察。

問:如何開始使用 Amazon Redshift Serverless (預覽版)?

只要在 AWS 管理主控台中點按幾個按鈕,您就能選擇「設定 Amazon Redshift Serverless」,開始查詢資料。您可以利用預先載入的採樣資料集,例如天氣資料、民調資料和基準資料集,連同採樣查詢立即展開分析。您可從 Amazon S3、Amazon Redshift 資料共用,或從現有 Redshift 所佈建的叢集快照復原,建立資料庫、結構描述、表格及負載資料。也能以開放格式直接查詢資料,例如 Amazon S3 資料湖中的 Parquet 或 ORC,亦可查詢操作資料庫中的資料,例如 Amazon Aurora、Amazon RDS PostgreSQL 和 MySQL。

問:Amazon Redshift Serverless (預覽版) 具有哪些功能?

Amazon Redshift Serverless 可帶來眾多利益,包括:

  • 無需佈建及管理叢集,就能迅速得到洞察。
  • 具有基於工作負載需求的智慧型自動擴展能力,不必過度佈建資源。
  • 有適合擴展與版本更新的持續服務可用性。
  • 對於負載入資料倉儲的資料、Amazon S3 資料湖中的開放格式,和操作資料庫中的資料皆可發揮立即可用的快速查詢效能,無需調校資料庫。
  • 有 Amazon Redshift 的豐富 SQL 分析、耐久性和交易保證。
  • 僅針對使用的容量付費,具有成本效益,還可降低資料倉儲的複雜度。

問:使用 Amazon Redshift Serverless (預覽版) 可帶來哪些利益?

就算您沒有管理資料倉儲的經驗,也不必擔心設定、組態、管理叢集或是調校倉儲。您可專心從資料衍生有意義的洞察,或是透過資料產生核心商業成果。只需按實際用量付費,保持成本管理能力。您可繼續從所有 Amazon Redshift 的一流效能、豐富的 SQL 功能、與資料湖和操作資料倉儲無縫整合,以及內建的預防性分析及資料共享功能獲得利益。如您需要精細地控制資料倉儲,可佈建 Redshift 叢集。

問:Amazon Redshift Serverless (預覽版) 如何與其他 AWS 服務共同運作?

您可繼續使用 Amazon Redshift 所有的豐富分析功能,例如複雜聯結、直接查詢 Amazon S3 資料湖和操作資料庫中的資料、具體化檢視、存放的程序、支援半結構化資料、機器學習 (ML) 及在大規模之下發揮高效能。Amazon Redshift 與之整合的所有相關服務 (例如 Amazon Kinesis、AWS Lambda、Amazon QuickSight、Amazon SageMaker、Amazon EMR、AWS Lake Formation 及 AWS Glue) 繼續適用於 Amazon Redshift Serverless。

問:哪些使用案例能以 Amazon Redshift Serverless (預覽版) 處理?

您可繼續執行所有分析使用案例。具有簡單的開始使用工作流程、自動擴展,並可按使用量付費,Amazon Redshift Serverless 的體驗現在讓執行開發和測試環境變得更輕鬆、也更加經濟,滿足需要快速開始、臨機商業分析、具有多變且無可預期之運算需求,以及間歇或偶爾需要的工作負載等特性。

問:Amazon Athena 與 Amazon Redshift Serverless 有何不同?

Amazon Athena 與 Amazon Redshift 這兩項服務雖然皆屬無伺服器型,卻因應不同的需求和使用案例。如果想從任何規模之下皆能發揮高效能的複雜 BI 和分析工作負載之中得到最佳價格效能,Amazon Redshift 這類資料倉儲是最好的選擇。Amazon Redshift 也能查詢 Amazon S3 中所存放的資料,和與存放在資料倉儲的資料合併。相比之下,Athena 更適合對任何資料存放進行互動式分析,無需擔憂資料擷取和格式設定。Athena 分析與儲存脫勾,因此可提供靈活性,能使用其他工具和服務例如 Spark、Flink 及 Kafka 對以 Athena 所分析的相同資料進行更加豐富的分析和資料處理。

資料共享

問:什麼是 Amazon Redshift 資料共享?

Amazon Redshift 資料共享可讓您分享 Amazon Redshift 中的即時資料,與 AWS 帳戶內和 AWS 帳戶之間的其他 Redshift 叢集,及與使用資料湖的 AWS 分析服務既安全又輕鬆地針對讀取共享資料。利用資料共享,任何 Redshift 叢集只要有存取許可,您便能立即自其查詢即時資料,免除資料複製和資料移動的複雜和延遲。Amazon Redshift 可讓您遍及組織、帳戶甚至區域共享及查詢即時資料。

問:資料共享有哪些使用案例?

主要使用案例包括:

  • 以中央 ETL 叢集與許多 BI/分析叢集共享資料,提供讀取工作負載隔離與選擇性計費能力。
  • 資料供應商對外部消費者分享資料。
  • 共享共通資料集,例如消費者、橫跨不同商業團體的產品,以及協作進行寬廣分析與資料科學用途。
  • 將資料倉儲分散以簡化管理。
  • 於開發、測試和生產環境之間共享資料。
  • 從其他 AWS 分析服務存取 Redshift 資料。

問:什麼是 Amazon Redshift 中的跨資料庫查詢?

藉助跨資料庫查詢,您可以無縫地查詢和聯結有權存取的任何 Redshift 資料庫中的資料,而不受所連線資料庫的限制。這可以包括叢集上的本機資料庫,以及從遠端叢集提供的共享資料集。跨資料庫查詢可讓您具靈活性地將資料組織為獨立的資料庫,以支援多租用戶組態。

問:什麼是 AWS Data Exchange for Amazon Redshift?

AWS Data Exchange for Amazon Redshift 可讓您在 AWS Data Exchange 中尋找和訂閱第三方資料,幾分鐘內便能對 Redshift 資料倉儲進行查詢。亦可透過 AWS Data Exchange 輕鬆授權您在 Amazon Redshift 中的資料。客戶訂閱您的資料時可自動授予存取權,訂閱結束時也自動撤銷,可自動產生發票,,款項則透過 AWS 自動收取和支付。此項功能可讓您迅速以第三方資料查詢、分析和建置應用程式。

問:AWS Data Exchange 的主要使用者是哪些人士?

AWS Data Exchange 可便於 AWS 的客戶在 AWS 中安全地交換與使用第三方資料。資料分析師、產品經理、產品組合經理、、資料科學家、量化分析師、臨床試驗技師及幾乎每一產業的開發人員都很希望多加存取資料以驅動分析、訓練機器學習 (ML) 模型,和作出資料驅動型決策。可是並無一個地方能自多重供應商尋找資料,加上供應商遞送資料的方式也不一致,導致其必須應付所交付的各種實體媒體、FTP 憑證和專屬 API 呼叫。反之,許多組織樂意將資料供作研究或商業用途,可惜建置及維護資料遞送、權利及帳單技術過於困難且又昂貴,使得寶貴資料的供應事宜更加令人頭痛。

問:哪些 AWS 區域提供 AWS Data Exchange?

AWS Data Exchange 有供應商提供的單一、全球可用產品型錄。無論您在哪個區域,都能看見相同的型錄。產品的基礎資源 (資料集、修訂版和資產) 屬區域性資源,由您在特定 AWS 區域以程式設計方式或者透過 AWS Data Exchange 主控台加以管理。請參閱 AWS 區域可用性表格,查看目前可使用 AWS Data Exchange 的 AWS 區域清單。

問:AWS Data Exchange 與 Registry of Open Data on AWS 之間有什麼差別?

AWS Data Exchange 與 Registry of Open Data on AWS 之間主要有五點差別:

  • 第一,AWS Data Exchange 支援免費與商用資料產品,凡有適用的商用費用即套用至您 AWS 發票。Registry of Open Data on AWS 可供您存取免費與開放資料集的經策管清單。 
  • 第二,AWS Data Exchange 要求您明確同意資料訂閱協議,其中列出資料供應商在發佈產品時所設的條款。Registry of Open Data on AWS 上的資料沒有使用條款。 
  • 第三,您必須使用 AWS Data Exchange API 將資料從 AWS Data Exchange 複製到所需的 Amazon S3 位置。Registry of Open Data on AWS 的資料集是經由 S3 API 所存取。 
  • 第四,AWS Data Exchange 可供資料供應商存取每日、每週及每月報告,其中詳述訂閱活動。使用 Registry of Open Data on AWS,資料供應商必須分析本身的日誌以追蹤資料的使用。 
  • 最後,若要成為 AWS Data Exchange 上的資料供應商,合格客戶必須在 AWS Marketplace 註冊為資料供應商,方具資格可陳列免費與商用產品。然而,任何客戶皆可透過 GitHub 新增免費資料至 Registry of Open Data on AWS,以及申請 AWS Public Dataset Program for AWS 以贊助特定開放資料集的儲存和頻寬成本。

問:什麼是 Amazon Redshift 查詢編輯器 V2?

Amazon Redshift 查詢編輯器 v2 是 Web 型 SQL 用戶端應用程式,您可用以對 Redshift 資料倉儲編寫和執行查詢。您可用圖表將查詢結果視覺化,以及透過與團隊成員共用查詢來進行協作。查詢編輯器 v2 具備多項功能,例如能夠瀏覽和探索多重資料庫、外部表格、檢視、預存程序及使用者定義的函數。提供精靈程式,可建立結構描述、表格和使用者定義的函數。您亦可使用視覺精靈從 Amazon S3 將資料負載入 Amazon Redshift。可簡化所儲存查詢的管理與協作。還能以單一按鍵動作將結果視覺化,加快獲得洞察。利用最新發行的預覽版,資料分析師想要共用查詢以及進行協作,可透過名為 Query Doc 的共同介面,該介面能供其嵌入程式碼/SQL 查詢、註解、結果和視覺化。

問:為什麼應該使用查詢編輯器 V2?

若您是資料分析師、資料科學家或資料工程師,現在起可使用查詢編輯器 V2 透過 Web 介面瀏覽、建立結構描述和表格、負載資料和編寫 SQL 查詢、預存程序和 UDF。還能原地執行資料的視覺分析,不必跳出工具。也能排定執行時間長的查詢,或是簡單報告用途例如每日報告的查詢。

問:查詢編輯器 V2 包含哪些功能?

查詢編輯器 V2 可讓您:

  • 以視覺方式建立結構描述、表格和從 Amazon S3 負載資料。
  • 以編寫 SQL 查詢的直觀編輯器編寫查詢,加快獲得洞察。
  • 執行結果分析,以 JSON/CSV 格式將結果下載至您的桌面。
  • 自動管理不同版本的查詢。
  • 與其他使用者協作以共用查詢、分析和結果。
  • 即使瀏覽器已關閉,仍能在背景執行查詢。

可擴展性和並行

問:如何擴展 Amazon Redshift 資料倉儲叢集的大小和效能?

如果您想提高查詢效能或對 CPU、記憶體或輸入/輸出的過度使用做出回應,可透過 AWS 管理主控台ModifyCluster API,使用「彈性調整大小」增加資料倉儲叢集內的節點數量。 當您修改資料倉儲叢集時,所請求的更改會立即套用。透過 AWS 管理主控台或 Amazon CloudWatch API,可免費提供運算使用率、儲存使用率和 Redshift 資料倉儲叢集讀/寫流量的指標。您也可透過 Amazon CloudWatch 的自訂指標功能,新增使用者定義的指標。

透過「並行擴展」功能,您可以支援幾乎不受限制的並行使用者和並行查詢,同時保有一致的快速查詢效能。啟用「並行擴展」時,Amazon Redshift 會在您的叢集遇到查詢佇列增加時自動新增叢集容量。

使用 Amazon Redshift Spectrum 可以執行存取相同 Amazon S3 資料的多個 Redshift 叢集。您可以在不同的使用案例使用不同的叢集。例如,您可以使用一個叢集執行標準報告,然後使用另一個叢集執行資料科學查詢。行銷團隊可使用自己的叢集,無須與營運團隊使用一樣的叢集。Redshift Spectrum 會將查詢自動分配到共享資源集區的多個 Redshift Spectrum 工作者執行,以讀取和處理 Amazon S3 中的資料,並將結果放回 Redshift 叢集以進行後續的其他處理。

問:擴展期間是否仍可使用資料倉儲叢集?

這隨情況而異。當您使用並行擴展功能時,叢集的讀取和寫入在並行擴展期間完全不受影響。使用彈性調整大小功能,叢集在調整大小期間會有四到八分鐘無法使用。使用受管儲存中的 Redshift RA3 儲存彈性時,叢集完全可用,而資料會在受管儲存和運算節點之間自動移動。

問:何時應使用並行擴展,何時又應使用資料共享?

資料共享和並行擴展是具有互補性質的功能。藉助並行擴展,Amazon Redshift 可讓您自動擴展單個叢集中的一個或多個工作負載,以處理高並行和查詢高峰。Amazon Redshift 會自動彈性地在幾秒鐘內擴充容量以應對使用者活動的激增,並在活動量減少時降低容量。應用程式使用單個應用程式端點持續與 Amazon Redshift 互動。資料共享可讓您透過多叢集、多帳戶部署擴展到不同的工作負載。這允許實現工作負載隔離和計費功能、分散環境中的跨群組協作,並且能夠將資料即服務提供給內部和外部利害關係人。可以在資料共享生產者叢集和消費者叢集上啟用並行擴展。

問:如何管理資源以確保我的 Amazon Redshift 叢集可在高度並行期間持續提供快速效能?

典型資料倉儲在一天中的並行查詢用量會有明顯的變化。只針對需要的期間新增資源而不是為需求尖峰時刻佈建,會是更為經濟實惠的方式。Amazon Redshift 會代替您自動管理這一切。

並行擴展是 Amazon Redshift 的一項功能,即使有數千個並行查詢,仍可持續提供快速查詢效能。使用此功能時,Amazon Redshift 會視需要自動新增暫時容量,以處理大量需求。Amazon Redshift 會將查詢自動路由到擴展叢集,這些叢集可在最短時間內佈建並立即開始處理查詢。

大多數客戶都可以免費使用此功能。每個 Amazon Redshift 叢集每天最多可獲得一小時的免費並行擴展積分。這可讓您預測每個月的成本,即使在分析需求起伏不定的期間也可進行預測。

問:什麼是彈性調整大小以及與並行擴展有什麼不同?

「彈性調整大小」可在數分鐘內從單一 Redshift 叢集新增或移除節點,以管理其查詢輸送量。例如,可能需要額外的 Amazon Redshift 資源才能準時完成日報告或月終報告中特定時段的 ETL 工作負載。「並行擴展」可新增額外的叢集資源,以增加整體查詢並行。

問:是否可直接存取並行擴展叢集?

否,「並行擴展」是可大規模擴展的 Amazon Redshift 資源集區,且客戶沒有此集區的直接存取權。

資料整合與負載

問:如何將資料載入到 Amazon Redshift 資料倉儲中?

您可以從各種資料來源將資料載入 Amazon Redshift,其中包括 Amazon S3Amazon RDSAmazon DynamoDBAmazon EMRAWS GlueAWS Data Pipeline 和/或 Amazon EC2 或內部部署的任何已啟用 SSH 主機。Amazon Redshift 會嘗試將資料平行載入每個運算節點,將資料倉儲叢集擷取資料的速度提到最高。用戶端可使用 ODBC 或 JDBC 連接到 Amazon Redshift,並發出 'insert' SQL 命令以插入資料。請注意,這會比使用 S3 或 DynamoDB 稍慢,因為那些方法是將資料平行載入每個運算節點,而 SQL insert 陳述式則是透過單一領導節點載入資料。如需將資料載入 Amazon Redshift 的更多詳細資訊,請查看我們的入門指南

問:如何將資料從現有的 Amazon RDS、Amazon EMR、Amazon DynamoDB 及 Amazon EC2 資料來源載入 Amazon Redshift?

您可以使用我們的 COPY 命令,以平行方式將資料從 Amazon EMR、Amazon DynamoDB 或任何已啟用 SSH 主機直接負載至 Amazon Redshift。Amazon Redshift Spectrum 還能讓您使用簡單的 INSERT INTO 命令將資料從 Amazon S3 負載至叢集內。於是,您可以將不同格式的資料負載至叢集之內,像是 Parquet 和 ORC。請注意,如果您使用這種方法,將會累計從 Amazon S3 掃描資料的 Redshift Spectrum 費用。 

AWS Data Pipeline 提供一個高效能、可靠且容錯的解決方案,可從各種 AWS 資料來源 (例如 Amazon RDS) 將資料負載至 Redshift。您可以使用 AWS Data Pipeline 指定資料來源和所需的資料轉換,然後執行預先寫好的匯入指令碼,將資料負載入 Amazon Redshift。此外,AWS Glue 是全受管的擷取、轉換和負載 (ETL) 服務,可輕鬆準備資料以及負載資料用於分析。只要在 AWS 管理主控台按幾下,就可以建立並執行 AWS Glue ETL 任務。此外,許多 ETL 公司也已認證 Amazon Redshift 可與他們的工具搭配使用,其中部分還提供免費試用,協助您開始負載資料。其中部分功能也實作與 Redshift 主控台的更加深度整合以更便於從各種第三方來源對 Amazon Redshift 發現和監控資料管道。

問:我有許多資料是第一次負載入 Amazon Redshift。透過網際網路傳輸會耗費很長的時間。我要如何載入這些資料?

您可以使用可攜式儲存裝置,透過 AWS Snowball 將資料傳輸至 Amazon S3。此外,您可以使用 AWS Direct Connect 在您的網路或資料中心和 AWS 之間建立私有網路連線。您可以選用 1 Gbit/秒或 10 Gbit/秒的連接埠來傳輸資料。

安全

問:Amazon Redshift 如何保護資料的安全?

Amazon Redshift 透過內建 AWS IAM 的整合、單一登入 (SSO) 聯合身份、多重因素驗證、欄層級存取控制、Amazon Virtual Private Cloud (Amazon VPC),以及內建的 AWS KMS 整合,支援領先業界的安全性,以保護您的傳輸中資料和靜態資料。Amazon Redshift 使用產業標準加密技術進行資料加密,確保傳輸中和靜態資料的安全。為了確保傳輸中的資料安全,Amazon Redshift 支援用戶端應用程式及 Redshift 資料倉儲叢集之間的已啟用 SSL 連線。而為了確保靜態資料安全,Amazon Redshift 使用硬體加速型 AES-256,在寫入磁碟時加密每個區塊。這是在 I/O 子系統中的低層級進行,會對寫入磁碟的所有資料進行加密,包括中繼查詢結果。區塊會按原來狀態備份,這表示備份也會加密。在預設情況下,Amazon Redshift 會負責金鑰管理,但您可以選擇透過 AWS Key Management Service 來管理金鑰。所有 Amazon Redshift 安全性功能皆已提供,無須額外收費。Redshift Spectrum 支援使用 AWS Key Management Service (KMS) 管理的帳戶預設金鑰進行 Amazon S3 伺服器端加密 (SSE)。

問:Redshift 是否支援如欄層級安全此種精細的存取控制?

是。精細的欄層級安全控制可確保使用者只會看到他們應該存取的資料。Amazon Redshift 支援對本機表格的欄層級存取控制,因此您可以透過向使用者或使用者群組授予/撤銷欄層級權限,來控制對表格或檢視的各欄進行存取。Redshift 與 AWS Lake Formation 整合,確保 Lake Formation 的欄層級存取控制也會在 Redshift 查詢資料湖資料時強制套用。

問:Amazon Redshift 支援資料遮罩或資料字符化嗎?

藉助 AWS Lambda 使用者定義函數 (UDF),可以將 AWS Lambda 函數用作 Amazon Redshift 中的 UDF,並從 Redshift SQL 查詢中叫用此函數。此功能可讓您為 SQL 查詢撰寫自訂擴展,以實現與其他服務或第三方產品更加緊密的整合。可以撰寫 Lambda UDF,以透過與 Protegrity 等供應商整合來啟用外部字符化、資料遮罩、資料識別和去識別,同時可在查詢期間根據使用者的許可和所屬群組保護或取消保護敏感資料。

問:Amazon Redshift 是否支援單一登入?

是。若客戶欲使用其公司身份供應商 (例如 Microsoft Azure Active Directory、Active Directory Federation Services、Okta、Ping Federate 或其他 SAML 合規身分供應商),則可以將 Amazon Redshift 設定為提供單一登入。

問:Amazon Redshift 如何搭配 Microsoft Azure Active Directory 支援單一登入?

您可以使用 Microsoft Azure Active Directory(AD) 身份登入 Amazon Redshift 叢集。這讓您可登入 Redshift,而無須在 Redshift 中複製 Azure Active Directory 身份。

問:Amazon Redshift 是否支援 Multi-Factor Authentication (MFA)?

是。在對 Amazon Redshift 叢集進行身份驗證時,可以使用多重因素驗證 (MFA) 來提高安全性。

問:是否可在 Amazon Virtual Private Cloud (Amazon VPC) 使用 Amazon Redshift?

是。您可將 Amazon Redshift 做為 VPC 組態的一部分使用。透過 Amazon VPC,您可以定義一個與自己資料中心內執行的傳統網路非常相似的虛擬網路拓撲。這讓您能夠完全控制誰能存取您的 Redshift 資料倉儲叢集。您可以使用 Redshift Spectrum 搭配屬於 Amazon VPC 部分的 Redshift 叢集。

Amazon Redshift 可支援受管 VPC 端點 (採用 AWS PrivateLink 技術) 以連線至 VPC 中的 Redshift 叢集。使用 Amazon Redshift 受管端點,您可在相同或其他 AWS 帳戶之內從另一個 VPC 中的用戶端應用程式私有存取在您的 VPC 中的 Redshift 資料倉儲,並且在內部部署上執行,不使用公有 IP,也不需要使用經過網際網路的流量。

問:是否可以直接存取 Amazon Redshift 運算節點?

否。您的 Amazon Redshift 運算節點位於私有網路空間,只能從資料倉儲叢集的領導節點存取。這可為您的資料安全性提供多一層保護。

問:Redshift 是否支援資料庫的角色型存取控制? (預先公告)

Amazon Redshift 即將提供對角色型存取控制的支援。

可用性與耐久性

問:如果其中一個節點上的磁碟機發生故障,對資料倉儲叢集的可用性和資料耐久性有何影響?

在這些情形下,Amazon Redshift 可偵測磁碟機或節點故障,自動更換叢集節點。在 Dense Compute (DC) 和 Dense Storage (DS2) 叢集中,資料存放在運算節點,以確保具有高度資料耐久性。更換節點時,會從另一節點上的鏡像副本重新整理資料。

RA3 叢集和 Redshift 無伺服器不受這樣的影響,因為資料存放在 Amazon S3,本機磁碟僅用作資料快取。萬一更換節點,可從 Amazon S3 擷取資料。Amazon S3 提供 99.9999% 資料耐久性保證。萬一多個節點甚至整個叢集故障,S3 中有最新資料副本,叢集可在同一個可用區域或另一個可用區域復原,毫不損失資料。

資料倉儲叢集必須等到替換節點佈建並新增至資料庫之後,才能提供進行查詢和更新。Amazon Redshift 能讓您所取代的節點立即可用,從 RA3 及無伺服器上的 Amazon S3,及從 DS2 上的鏡像以及 Amazon Dense Compute (DC2) 負載您最常存取的資料。單一節點的 DC2 和 DS2 叢集不支援資料複寫。如果發生磁碟機故障,您需要從 S3 上的快照還原叢集。於 AWS Support 輔助之下使用存放在 S3 中的資料,能與單一節點 RA3.XLPLUS 叢集連線而毫不損失資料。我們建議您至少要為生產環境使用兩個節點,以達最大可用性。

問:如果個別節點發生故障,對資料倉儲叢集可用性和資料耐久性有何影響?

Amazon Redshift 將自動偵測並替換資料倉儲叢集中的故障節點。資料倉儲叢集必須等到替換節點佈建並新增至資料庫之後,才能提供進行查詢和更新。Amazon Redshift 會讓替換節點立即可供使用,並先從 S3 載入最頻繁存取的資料,讓您儘快恢復資料查詢。單一節點叢集不支援資料複寫。如果發生磁碟機故障,您需要從 S3 上的快照還原叢集。我們建議您至少要為生產環境使用兩個節點。

問:如果資料倉儲叢集的可用區域 (AZ) 出現故障,對資料倉儲叢集可用性和資料耐久性有何影響?

如果 Amazon Redshift 資料倉儲叢集的可用區域不可用,Amazon Redshift 會自動將您的叢集移動至另一個 AWS 可用區域 (AZ),而不會丟失任何資料或變更應用程式。為此,您必須在叢集組態設定中啟用搬遷功能。

問:Amazon Redshift 是否支援多可用區域部署?

目前,Amazon Redshift 僅支援單一區域部署。若要設定災難復原 (DR) 組態,可在叢集上啟用跨區域快照副本。如此可從您的叢集將所有快照複製到另一個 AWS 區域。萬一發生 DR 事件,可復原複製區域的快照以建立新叢集。Amazon Redshift 也支援跨區域資料共享,消費者叢集可存取位於另一區域的生產者叢集中的即時資料。限定使用 Amazon Redshift Serverless 和 RA3 方受支援。

查詢和分析

問:Amazon Redshift 和 Redshift Spectrum 與我偏好的商業智慧軟體套件及 ETL 工具是否相容?

相容,Amazon Redshift 使用產業標準 SQL,並可使用標準 JDBC 和 ODBC 驅動程式存取。您可以從 Redshift 主控台的連線用戶端標籤下載 Amazon Redshift 自訂 JDBC 和 ODBC 驅動程式。我們與熱門的 BI 和 ETL 供應商進行的整合已經獲得驗證,其中許多都提供免費試用,以協助您開始載入和分析資料。您也可以前往 AWS Marketplace,只需幾分鐘,就可以部署和設定專為與 Amazon Redshift 搭配使用而設計的解決方案。

Amazon Redshift Spectrum 支援所有 Amazon Redshift 用戶端工具。用戶端工具可使用 ODBC 或 JDBC 連線持續與 Amazon Redshift 叢集端點連線。不需要進行任何變更。

在 Redshift Spectrum 中使用的查詢語法和存取表格的查詢功能與 Redshift 叢集本機儲存中的表格完全一樣。外部表格使用 CREATE EXTERNAL SCHEMA 命令 (其註冊的位置) 定義的結構描述名稱加以參考。

問:Amazon Redshift Spectrum 支援哪些資料格式和壓縮格式?

Amazon Redshift Spectrum 目前支援多種開放原始碼資料格式,包括 Avro、CSV、Grok、Amazon Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、Sequence、Text 和 TSV。

Amazon Redshift Spectrum 目前支援 Gzip 和 Snappy 壓縮。

問:如果本機儲存中的表格名稱與外部表格的名稱相同會如何?

如同本機表格,您可以透過查詢中的 schema_name.table_name 使用結構描述名稱選擇您要的表格。

問:我使用 Hive 中繼存放區存放有關 S3 資料湖的中繼資料。是否可使用 Redshift Spectrum?

是。CREATE EXTERNAL SCHEMA 命令支援 Hive 中繼存放區。我們目前不針對 Hive 中繼存放區支援 DDL。

問:如何取得叢集中建立的所有外部資料庫表格清單?

您可以查詢系統表格 SVV_EXTERNAL_TABLES 以取得該資訊。

問:Redshift 支援將機器學習用於 SQL 的功能嗎?

支援,Amazon Redshift ML 功能可讓 SQL 使用者使用熟悉的 SQL 命令輕鬆建立、訓練和部署機器學習 (ML) 模型。Amazon Redshift ML 可讓您透過全受管的機器學習 (ML) 服務 Amazon SageMaker 利用 Amazon Redshift 中的資料。Amazon Redshift 支援無監督學習 (K-Means) 和監督學習 (Autopilot、XGBoost、MLP 演算法)。您還可以使用 AWS 語言 AI 服務透過預先建置的 Lambda UDF 函數翻譯、修訂和分析 SQL 查詢中的文字欄位 – 請參閱部落格文章

問:Amazon Redshift 是否提供 API 來查詢資料?

Amazon Redshift 提供資料 API,可讓您使用所有類型的傳統、雲端原生、容器化、無伺服器 Web 服務式和事件驅動型應用程式,從 Amazon Redshift 輕鬆存取資料。資料 API 簡化了對 Amazon Redshift 的存取,因為您不需要設定驅動程式和管理資料庫連線。現在只需叫用資料 API 提供的安全 API 端點,即可對 Amazon Redshift 叢集執行 SQL 命令。資料 API 會負責管理資料庫連線和緩衝資料。資料 API 具有非同步性,因此可以稍後擷取結果。您的查詢結果會儲存長達 24 小時。

問:哪些類型的登入資料可以與 Amazon Redshift 資料 API 搭配使用?

資料 API 支援 IAM 登入資料,同時可使用來自 AWS Secrets Manager 的私密金鑰。資料 API 聯合了 AWS Identity and Access Management (IAM) 登入資料,因此您可以使用身分供應商 (例如 Okta 或 Azure Active Directory) 或儲存在 Secrets Manager 中的資料庫登入資料,而無需在 API 叫用中傳遞資料庫登入資料。

問:我可以從 AWS CLI 中使用 Amazon Redshift 資料 API 嗎?

是的,您可以透過 aws redshift-data 命令列選項從 AWS CLI 使用資料 API。

問:Redshift 資料 API 與其他 AWS 服務整合嗎?

可從其他服務使用資料 API,例如 AWS Lambda、AWS Cloud9、AWS AppSync 和 Amazon EventBridge。

問:我必須為使用 Amazon Redshift 資料 API 單獨支付費用嗎?

不需要,使用資料 API 無需單獨支付費用。

備份與還原

問:Amazon Redshift 如何備份我的資料? 如何從備份還原叢集?

Amazon Redshift RA3 叢集與 Amazon Redshift Serverless 使用 Redshift Managed Storage,始終備有資料最新副本。DS2 與 DC2 叢集可將資料鏡映在叢集上,確保萬一故障時有最新副本可用。可對所有 Redshift 叢集類型自動建立備份並保留 24 小時,在無伺服器復原點上則提供過去 24 小時的副本。

您亦可自行建立備份,無限期保留。這些備份隨時都能建立,Amazon Redshift 自動備份或 Amazon Redshift Serverless 復原點可轉換成使用者備份,延長保留期間。

Amazon Redshift 還能將您的快照或復原點以非同步方式複製到另一個區域的 Amazon S3 以進行災難復原。

在 DS2 或 DC2 叢集上,免費備份儲存限制為資料倉儲叢集中節點上的總儲存大小,且僅適用於作用中的資料倉儲叢集。

例如,如果您共有 8 TB 的資料倉儲儲存,我們將提供最多 8 TB 的備份儲存,且不收取其他費用。如果您要將備份保留期延長超過一天,可以使用 AWS 管理主控台Amazon Redshift API 執行此操作。如需自動快照的詳細資訊,請參閱 Amazon Redshift 管理指南

Amazon Redshift 只會備份已變更的資料,因此大多數快照僅佔用少量的免費備份儲存。需要恢復備份時,您可以存取備份保留時間內的所有自動化備份。一旦選擇某個要恢復的備份,我們就會佈建新的資料倉儲叢集,並將資料恢復至此叢集。

問:如何管理自動備份及快照的保留?

您可以使用 AWS 管理主控台ModifyCluster API 修改 RetentionPeriod 參數,以管理自動備份的保留期。如果您希望完全關閉自動備份,可以將保留期設為 0 (不建議)。

問:如果刪除資料倉儲叢集,對備份有何影響?

在您刪除資料倉儲叢集時,可以指定是否在刪除時建立最終快照。這樣就可以在日後還原所刪除的資料倉儲叢集。之前建立的所有資料倉儲叢集手動快照都會保留,並按照標準 Amazon S3 費率計費,除非您選擇將它們刪除。

監控和維護

問:如何監控 Amazon Redshift 資料倉儲叢集的效能?

透過 AWS 管理主控台Amazon CloudWatch API,可免費提供運算使用率、儲存使用率和 Amazon Redshift 資料倉儲叢集讀/寫流量的指標。 您也可透過 Amazon CloudWatch 的自訂指標功能,新增更多使用者定義的指標。AWS 管理主控台提供監控儀表板,可協助您監控所有叢集的運作狀態和效能。Amazon Redshift 還透過 AWS 管理主控台提供關於查詢及叢集效能的資訊。這些資訊讓您能夠查看哪些使用者及查詢消耗最多的系統資源,以透過檢視查詢計劃和執行統計資料來診斷效能問題。此外,您可查看每個運算節點上的資源使用率,確保資料和查詢在所有節點之間達到平衡。

問:什麼是維護時段? 資料倉儲叢集在軟體維護期間仍可供使用嗎?

Amazon Redshift 會定期執行維護,以便在叢集套用修正、增強功能和新功能。您可以透過程式設計的方式或使用 Redshift 主控台修改叢集,以變更排定的維護時段。在這些維護時段期間,將無法使用 Amazon Redshift 叢集執行一般操作。如需各區域維護時段和排程的詳細資訊,請參閱 Amazon Redshift 管理指南中的維護時段

進一步了解 Amazon Redshift 定價

瀏覽定價頁面
準備好開始建立?
Amazon Redshift 入門
還有其他問題嗎?
聯絡我們