Publicado en: Jun 5, 2018
Ya puede utilizar la función COPY para formatos de archivo Apache Parquet y Apache ORC desde Amazon S3 a su clúster de Amazon Redshift. Parquet y Apache ORC son formatos de datos en columnas que permiten a los usuarios almacenar datos de manera más eficiente y económica. Con esta actualización, Redshift ahora admite COPY desde seis formatos de archivo: AVRO, CSV, JSON, Parquet, ORC y TXT.
La nomenclatura para copiar Parquet u ORC es la misma que existe en el comando COPY. Por ejemplo, para cargar los archivos Parquet en la carpeta "parquet" de la ubicación de Amazon S3 "s3://mybucket/data/listings/parquet/", debería utilizar el siguiente comando:
COPY listing FROM 's3://mybucket/data/listings/parquet/' IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole' FORMAT AS PARQUET;
Esta nueva característica admite todos los tipos de almacenamiento de Amazon S3 de uso general, incluidos S3 Estándar, S3 Estándar – Acceso poco frecuente y S3 Única zona – Acceso poco frecuente. La actual versión de la función COPY admite algunos parámetros, como FROM, IAM_ROLE, CREDENTIALS, STARTUPDATE y MANIFEST. Las versiones posteriores incluirán más parámetros de COPY. La documentación de Amazon RedShift enumera las actuales restricciones que tiene esta función.
La función COPY desde Parquet y ORC está disponible con la última versión <1.0.2294> en las siguientes regiones de AWS: EE.UU. Este (Norte de Virginia, Ohio), EE.UU. Oeste (Oregón, Norte de California), Canadá (Central), América del Sur (São Paulo), UE (Fráncfort, Irlanda, Londres) y Asia Pacífico (Mumbai, Seúl, Singapur, Sídney, Tokio).