張貼日期: Jun 5, 2018

現在起,您可以使用 COPY 指令,從 Amazon S3 複製 Apache Parquet 與 Apache ORC 檔案格式到 Amazon Redshift 叢集。 Apache Parquet 和 ORC 為欄位式資料格式,能讓使用者在儲存及查詢資料時更有效率,且更經濟實惠。經過這次更新,Redshift 現支援使用 COPY 指令複製下列 6 種檔案格式:AVRO、CSV、JSON、Parquet、ORC 和 TXT。

複製 Parquet 或 ORC 的命名系統與現有的 COPY 指令相同。舉例來說,若要載入 Amazon S3 位置「s3://mybucket/data/listings/parquet/」下「parquet」資料夾內的 Parquet 檔案,您需要使用下列指令:

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

這項新功能支援一般用途的所有 Amazon S3 儲存類別,包括「S3 標準」、「S3 標準 – 不常存取」及「S3 單區域 – 不常存取」。COPY 功能的現行版本支援部分參數,例如 FROM、IAM_ROLE、CREDENTIALS、STARTUPDATE 及 MANIFEST。後續版本會納入更多 COPY 參數。如要了解此功能目前的限制,請參閱 Amazon Redshift 文件

以 COPY 複製 Parquet 和 ORC 檔案格式的功能現已開放下列 AWS 區域使用 (需搭配最新版 <1.0.2294>):美國東部 (維吉尼亞北部、俄亥俄)、美國西部 (奧勒岡、加州北部)、加拿大 (中部)、南美洲 (聖保羅)、歐洲 (法蘭克福、愛爾蘭、倫敦)、亞太區域 (孟買、首爾、新加坡、雪梨、東京)。