发布于: Dec 9, 2020

完全托管的云数据仓库 Amazon Redshift 宣布推出对 JSON 和半结构化数据的原生支持(预览版)。它基于新的数据类型“SUPER”,这种数据类型允许您将半结构化数据存储在 Redshift 表中。Redshift 还增加了对 PartiQL 查询语言的支持,以便能够无缝地查询和处理半结构化数据。此功能使您能够实现高级分析,将经典的结构化 SQL 数据(例如字符串、数字和时间戳)与具有卓越性能且灵活易用的半结构化 SUPER 数据相结合。

泛型数据类型 SUPER 本质上是无 schema 的,它允许存储由 Redshift 标量值、嵌套数组或其他嵌套结构组成的嵌套值。Amazon Redshift 支持将 JSON 数据解析为 SUPER 类型,与将类似数据插入经典标量列相比,JSON/SUPER 数据插入速度提高了 5 倍。PartiQL 是 SQL 的扩展,已在多项 AWS 服务中被采用。PartiQL 允许通过高效的对象和数组导航来访问无 schema 的嵌套式 SUPER 数据,并且可以使用连接和聚合等经典分析操作灵活地组合查询。这使用户能够通过临时查询发现结构化和半结构化数据组合来实现新的高级分析。此外,数据工程师还可以直接在其 Redshift 集群中对插入的半结构化数据进行简化的低延迟 ELT(提取、加载、转换)处理,而无需与外部服务集成。促进 ELT 的 PartiQL 功能包括无 schema 语义、动态输入和类型自省功能,以及它的导航和非嵌套功能。通过创建物化视图,您可以轻松地分解半结构化数据,并且可以数量级地加快分析查询的速度,同时保持物化视图的自动和增量式维护。

Amazon Redshift 对本地半结构化数据处理的支持在 SQL_PREVIEW 轨道中作为公共预览版提供。要开始使用并了解详情,请访问文档。请参阅 AWS 区域表,了解 Amazon Redshift 的可用情况。