Amazon Redshift 为 Top-K 查询引入了关键性能优化

发布于: 2026年4月13日

Amazon Redshift 通过智能地跳过不相关的数据块,进一步优化了 Top-K 查询(带有 ORDER BY 和 LIMIT 子句的查询)的处理过程,从而更快速地返回结果,大幅减少处理的数据量。此项优化根据 ORDER BY 列的最大/最小值,重新排序并高效调整待读取的数据块,内存中仅保留 K 条最符合条件的行。当 ORDER BY 列已排序或部分排序时,Amazon Redshift 现在仅处理所需的极少量数据块,而非扫描整个表,从而消除了不必要的 I/O 和计算开销。

对于符合条件的行被追加在数据存储末尾的大型表,如果数据以降序方式永久存储 (ORDER BY ...DESC LIMIT K),则此项增强功能对 Top-K 查询尤其有效。常见的示例包括:

  • 从数百万或数十亿笔交易中查找最近的 k 个订单
  • 从包含数十万个库存单位 (SKU) 和与销售目录中所有产品 SKU 关联的数百万或数十亿笔销售交易的销售目录中检索表现最佳的 k 个商品或表现最差的 k 个商品(按降序排列的前 k 个)
  • 从数十亿条提示词中查找由基础大语言模型 (LLM) 推理出的最新或最旧(降序排列的 Top-K)的前 K 条提示词。

借助此项新优化,Top-K 查询性能得到了显著提升。自 补丁版本 P199 起,此项 Top-K 查询优化已在提供 Amazon Redshift 的所有 AWS 区域推出,且无需额外付费。此项优化会自动应用于符合条件的查询,无需重写任何查询或更改配置。