Publié le: Jun 5, 2018

Il est désormais possible de COPIER des formats de fichier Apache Parquet et Apache ORC d’Amazon S3 vers votre cluster Amazon Redshift. Les formats Apache Parquet et ORC sont des formats des données en colonnes qui vous permettent de stocker leurs données plus efficace et plus économique. Avec cette mise à jour, Redshift prend désormais en charge la COPIE depuis six formats de fichier : AVRO, CSV, JSON, Parquet, ORC et TXT.

La syntaxe permettant de copier Parquet ou ORC est la même que celle de la commande COPY existante Par exemple, pour charger les fichiers Parquet à l’intérieur du dossier « parquet » à l’emplacement Amazon S3 « s3://mybucket/data/listings/parquet/ », vous devez utiliser la commande suivante :

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

Toutes les classes de stockage Amazon S3 à usage général sont prises en charge par cette nouvelle fonction, et notamment S3 Standard – Accès non fréquent et S3 One Zone – Accès non fréquent La version actuelle de la fonction COPY prend en charge certains paramètres tels que FROM, IAM_ROLE, CREDENTIALS, STARTUPDATE et MANIFEST. Les versions à venir incluront d’autres paramètres COPY. La documentation Amazon Redshift répertorie les restrictions actuelles de la fonction.

La version la plus récente de la fonction COPY à partir de Parquet et d’ORC <1.0.2294> est disponible dans les régions AWS suivantes : Est des États-Unis (Nord de la Virginie, Ohio), Ouest des États-Unis (Oregon, Nord de la Californie), Canada (Central), Amérique du Sud (Sao Paulo), Union Européenne (Francfort, Irlande, Londres), Asie-Pacifique (Mumbai, Séoul, Singapour, Sydney, Tokyo).