Amazon Redshift 现在可以从 Parquet 和 ORC 文件格式执行 COPY

发布于: Jun 5, 2018

现在，您可以将 Apache Parquet 和 Apache ORC 文件格式从 Amazon S3 COPY 到您的 Amazon Redshift 集群。Apache Parquet 和 ORC 属于列数据格式，允许用户以更高效、更经济的方式存储数据。通过此次更新，Redshift 现在支持从六种文件格式进行 COPY：AVRO、CSV、JSON、Parquet、ORC 和 TXT。

用于复制 Parquet 或 ORC 的命名法与现有 COPY 命令相同。例如，要在 Amazon S3 的“s3://mybucket/data/listings/parquet/”处的“parquet”文件夹中加载 Parquet 文件，可以使用以下命令：

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

此新功能支持所有通用型 Amazon S3 存储类别，包括“S3 标准存储”、“S3 标准 – 不频繁访问存储”和“S3 单区 – 不频繁访问存储”。当前版本的 COPY 函数支持特定参数，例如 FROM、IAM_ROLE、CREDENTIALS、STARTUPDATE 和 MANIFEST。后续版本将包含更多 COPY 参数。Amazon Redshift 文档中列出了该函数的当前限制。

从 Parquet 和 ORC 进行 COPY 在以下 AWS 区域提供最新版本 <1.0.2294>：美国东部（弗吉尼亚北部、俄亥俄）、美国西部（俄勒冈、加利福尼亚北部）、加拿大（中部）、南美洲（圣保罗）、欧洲（法兰克福、爱尔兰、伦敦）、亚太地区（孟买、首尔、新加坡、悉尼、东京）。

Amazon Redshift 现在可以从 Parquet 和 ORC 文件格式执行 COPY

终止对 Internet Explorer 的支持