Veröffentlicht am: Jun 5, 2018

Sie können nun Apache Parquet- und Apache ORC-Dateiformate von Amazon S3 zu Ihrem Amazon RedShift -Cluster KOPIEREN. Parquet und Apache ORC sind spaltenförmige Datenformate, mit denen Benutzer ihre Daten effizienter und kostengünstiger speichern und abfragen können. Mit diesem Update unterstützt Redshift jetzt KOPIEREN aus sechs Dateiformaten: AVRO, CSV, JSON, Parquet, ORC und TXT.

Die Nomenklatur für das Kopieren von Parquet oder ORC ist die gleiche wie für den vorhandenen KOPIEREN-Befehl. Um beispielsweise die Parquet-Dateien im Ordner „Parquet“ am Amazon S3-Standort „s3://mybucket/data/listings/parquet/“ zu laden, würden Sie den folgenden Befehl verwenden:

COPY listing
FROM 's3://mybucket/data/listings/parquet/'
IAM_ROLE 'arn:aws:iam::0123456789012:role/MyRedshiftRole'
FORMAT AS PARQUET;

Alle allgemeinen Amazon S3-Speicherklassen werden von dieser neuen Funktion unterstützt, einschließlich S3 Standard, S3 Standard-Infrequent Access und S3 One Zone-Infrequent Access. Die aktuelle Version der Funktion KOPIEREN unterstützt bestimmte Parameter wie FROM, IAM_ROLE, CREDENTIALS, STARTUPDATE und MANIFEST. Nachfolgende Versionen enthalten mehr KOPIEREN-Parameter. Die Amazon Redshift Dokumentation listet die aktuellen Einschränkungen für die Funktion auf.

KOPIEREN von Parquet und ORC ist mit der neuesten Version <1.0.2294> in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia, Ohio), USA West (Oregon, Nordkalifornien), Kanada (Zentral), Südamerika (São Paulo), EU (Frankfurt, Irland, London), Asien-Pazifik (Mumbai, Seoul, Singapur, Sydney, Tokio).