Publicado: Jun 5, 2018
Agora você pode executar a função COPY nos formatos de arquivo Apache Parquet e Apache ORC do Amazon S3 para o cluster do Amazon Redshift. O Apache Parquet e o ORC consistem em formatos de dados em colunas que permitem que você armazene dados com mais eficiência e economia. Com esta atualização, o Redshift agora oferece suporte a COPY de seis formatos de arquivo: AVRO, CSV, JSON, Parquet, ORC e TXT.
A nomenclatura para copiar Parquet ou ORC é igual ao comando COPY existente. Por exemplo, para carregar os arquivos do Parquet dentro da pasta “parquet” no local do Amazon S3 “s3://mybucket/data/listings/parquet/”, você usaria o seguinte comando:
COPY listing FROM 's3://mybucket/data/listings/parquet/' IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole' FORMAT AS PARQUET;
Há suporte para todas as classes de armazenamento de uso geral do Amazon S3 por este novo recurso, incluindo o S3 Standard, o S3 Standard-Infrequent Access e o S3 One Zone-Infrequent Access. A versão atual da função COPY oferece suporte a certos parâmetros, como FROM, IAM_ROLE, CREDENTIALS, STARTUPDATE e MANIFEST. Versões seguintes incluirão mais parâmetros COPY. A documentação do Amazon Redshift lista as restrições atuais da função.
COPY a partir do Parquet e ORC está disponível com a última versão <1.0.2294> nas seguintes regiões da AWS: Leste dos EUA (Norte da Virgínia, Ohio), Oeste dos EUA (Oregon, Norte da Califórnia), Canadá (Central), América do Sul (São Paulo), UE (Frankfurt, Irlanda, Londres), Ásia-Pacífico (Mumbai, Seul, Cingapura, Sydney, Tóquio).