Inserito il: Jun 5, 2018
Ora puoi eseguire COPY dei formati di file Apache Parquet e Apache ORC da Amazon S3 al tuo cluster Amazon Redshift. Apache Parquet e ORC sono formati di dati colonnari che consentono agli utenti di archiviare i dati in modo più efficiente ed economico. Grazie a questo aggiornamento, Redshift supporta ora la funzione COPY da sei formati di file: AVRO, CSV, JSON, Parquet, ORC e TXT.
La nomenclatura per la copia di Parquet o ORC è la stessa del comando COPY esistente. Ad esempio, per caricare i file Parquet all'interno della cartella "parquet" nella posizione Amazon S3 "s3://mybucket/data/listings/parquet/", devi utilizzare il seguente comando:
COPY listing FROM 's3://mybucket/data/listings/parquet/' IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole' FORMAT AS PARQUET;
Tutte le classi di storage generiche Amazon S3 sono supportate da questa nuova caratteristica, compresi S3 Standard, S3 Standard-Infrequent Access e S3 One Zone-Infrequent Access. La versione corrente della funzione COPY supporta determinati parametri, quali FROM, IAM_ROLE, CREDENTIALS, STARTUPDATE e MANIFEST. Le prossime versioni comprenderanno altri parametri COPY. La documentazione Amazon Redshift elenca le attuali restrizioni relative alla funzione.
L'esecuzione di COPY da Parquet e da ORC è disponibile con le release più recenti <1.0.2294> nelle seguenti regioni AWS: Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon, California), Canada (Centrale), Sud America (San Paolo), UE (Francoforte, Irlanda, Londra), Asia Pacifico (Mumbai, Seul, Singapore, Sydney, Tokyo).