发布于: Oct 2, 2020
Amazon Redshift 宣布支持在本地存储和处理 HyperLogLog (HLL) 草图。HyperLogLog 是一种新算法,可以有效地估算数据集中不同值的近似数量。HLL 草图是一种用于封装数据集中不同值的相关信息的结构。您可以使用 HLL 草图为查询(在大型数据集上计算近似基数,平均相对误差介于 0.01–0.6% 之间)实现显著的性能优势。
Redshift 提供了一流的数据类型 HLLSKETCH 和相关联的 SQL 函数,以生成、保留和合并 HyperLogLog 草图。Amazon Redshift 的 HyperLogLog 功能使用偏差校正技术,并以较低的内存占用量提供高准确度。Amazon Redshift 数据类型 HLLSKETCH 可用于将 HLL 草图值存储在表中。此外,Amazon Redshift 还支持使用聚合和标量函数应用于 HLLSKETCH 值的操作。您可以使用这些函数来创建 HLL 草图、提取 HLL 草图的基数或合并多个草图值。