发布于: Jun 8, 2020
您现在可以通过文本或 Apache Parquet 格式将 Amazon Redshift 查询的结果写入 Amazon S3 中的外部表。外部表元数据将自动更新,并且可以存储在 AWS Glue、AWS Lake Formation 或您的 Hive 元存储数据目录中。这使您能够轻松共享您在数据湖中的数据,并使 Amazon Redshift Spectrum 和 Amazon Athena、Amazon EMR 和 Amazon SageMaker 等其他 AWS 服务能够立即对其进行分析。使用 Amazon Redshift Spectrum,您可以构建一个湖库架构,以直接查询和联合数据仓库和数据湖中的数据。
要开始写入外部表,只需运行 CREATE EXTERNAL TABLE AS SELECT 以写入新的外部表,或运行 INSERT INTO 以将数据插入现有的外部表。这样一来,您可以使用熟悉的 SQL 和与现有的 ETL 和 BI 工具的无缝集成来简化并加速您的数据处理管道。您可以使用 PARTITIONED BY 选项对数据进行自动分区并利用分区修剪功能来提高查询性能和最大限度降低成本。例如,您可以将市场营销数据写入您的外部表中并选择按年、月和日列对其进行分区。有关更多信息,请参阅 Amazon Redshift 文档中的 CREATE EXTERNAL TABLE 和 INSERT 内容。
Redshift 发布版本 1.0.15582 或更高版本支持 Amazon Redshift 对外部表的写入功能。请参阅 AWS 区域表了解 Amazon Redshift 的可用情况。