发布于: Jun 5, 2018

现在,您可以将 Apache Parquet 和 Apache ORC 文件格式从 Amazon S3 COPY 到您的 Amazon Redshift 集群。Apache Parquet 和 ORC 属于列数据格式,允许用户以更高效、更经济的方式存储数据。通过此次更新,Redshift 现在支持从六种文件格式进行 COPY:AVRO、CSV、JSON、Parquet、ORC 和 TXT。 

用于复制 Parquet 或 ORC 的命名法与现有 COPY 命令相同。例如,要在 Amazon S3 的“s3://mybucket/data/listings/parquet/”处的“parquet”文件夹中加载 Parquet 文件,可以使用以下命令:

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

此新功能支持所有通用型 Amazon S3 存储类别,包括“S3 标准存储”、“S3 标准 – 不频繁访问存储”和“S3 单区 – 不频繁访问存储”。当前版本的 COPY 函数支持特定参数,例如 FROM、IAM_ROLE、CREDENTIALS、STARTUPDATE 和 MANIFEST。后续版本将包含更多 COPY 参数。Amazon Redshift 文档中列出了该函数的当前限制。

从 Parquet 和 ORC 进行 COPY 在以下 AWS 区域提供最新版本 <1.0.2294>:美国东部(弗吉尼亚北部、俄亥俄)、美国西部(俄勒冈、加利福尼亚北部)、加拿大(中部)、南美洲(圣保罗)、欧洲(法兰克福、爱尔兰、伦敦)、亚太地区(孟买、首尔、新加坡、悉尼、东京)。