发布于: Dec 3, 2019
现在,您可以将 Amazon Redshift 查询的结果作为 Apache Parquet 卸载到 Amazon S3 数据湖,Apache Parquet 是一种用于分析的高效开放列式存储格式。与文本格式相比,Parquet 格式的卸载速度提高了 2 倍,并且在 Amazon S3 中耗用的存储量减少了 6 倍。这使您能够以开放格式将在 Amazon Redshift 中完成的数据转换和数据扩充保存到 Amazon S3 数据湖中。然后,您可以使用 Redshift Spectrum 和其他 AWS 服务(例如 Amazon Athena、Amazon EMR 和 Amazon SageMaker)分析数据。
您可以指定一个或多个分区列,以便将卸载的数据自动分区到 Amazon S3 存储桶中的文件夹中。例如,您可以选择卸载市场营销数据并按年、月和日列对其进行分区。这使您的查询可以利用分区修剪功能,并跳过不相关分区的扫描,从而提高查询性能并最小化成本。
有关更多信息,请参阅 Amazon Redshift 文档。
Redshift 发布版本 1.0.10480 或更高版本支持 Amazon Redshift 数据湖导出功能。请参阅 AWS 区域表了解 Amazon Redshift 的可用情况。