发布于: Sep 24, 2020
现在,您可以使用 Amazon Redshift 通过开源 Apache Hudi 或 Delta Lake 对您的 Amazon S3 数据湖中的表格运行读取查询。Amazon Redshift Spectrum 是 Amazon Redshift 的一项功能,它使您可以直接从 Redshift 集群查询 S3 数据湖,而无需先加载数据,从而最大限度地缩短了洞察时间。
Redshift Spectrum 为 Lake House 架构提供支持,使您可以在 Redshift、Lake House 和运营数据库中查询数据,而无需使用 ETL 或加载数据。Redshift Spectrum 支持开放数据格式,例如 Parquet、ORC、JSON 和 CSV。Redshift Spectrum 还支持查询具有复杂数据类型(例如 struct、array 或 map)的嵌套数据。
Redshift Spectrum 允许您读取 Apache Hudi 0.5.2 版写入时复制 (CoW) 表格的最新快照,并且可以通过清单文件读取最新的 Delta Lake 0.5.0 版表格。
要了解更多信息,请参阅为 Apache Hudi 创建外部表或 Amazon Redshift 数据库开发人员指南中的 Delta Lake。