Amazon Redshift が、Parquet および ORC ファイルフォーマットから COPY できるようになりました

投稿日: Jun 5, 2018

Apache Parquet および Apache ORC ファイルフォーマットを Amazon S3 から Amazon Redshift クラスターへ COPY することができるようになりました。 Apache Parquet と ORC はカラムナデータフォーマットで、データをより効果的に、コスト効率良く保存できます。今回の更新で、Redshift は AVRO、CSV、JSON、Parquet、ORC、TXT の 6 つのファイル形式で COPY をサポートするようになりました。

Parquet または ORC をコピーするための命名法は、既存の COPY コマンドと同じです。たとえば、Amazon S3 の場所「s3://mybucket/data/listings/parquet/」にある「parquet」フォルダ内の Parquet ファイルを読み込むには、次のコマンドを使用します。

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

S3 標準、S3 標準 – 低頻度アクセス、S3 1 ゾーン – 低頻度アクセスなど、すべての汎用 Amazon S3 ストレージクラスは、この新しい機能によってサポートされています。現在のバージョンの COPY 関数は、FROM、IAM_ROLE、CREDENTIALS、STARTUPDATE、MANIFEST などの特定のパラメータをサポートしています。後続のバージョンには、より多くの COPY パラメータが含まれます。Amazon Redshift 文書には、この関数に関する現在の制限事項が一覧されています。

Parquet および ORC からの COPY は最新リリース <1.0.2294> で、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン、北カリフォルニア)、カナダ (中部)、南米 (サンパウロ)、欧州 (フランクフルト、アイルランド、ロンドン)、アジアパシフィック (ムンバイ、ソウル、シンガポール、シドニー、東京) の AWS リージョンで利用可能です。

Amazon Redshift が、Parquet および ORC ファイルフォーマットから COPY できるようになりました

Internet Explorer のサポートの終了