Amazon Redshift công bố tối ưu hóa hiệu suất chính cho các truy vấn Top-K
Amazon Redshift tối ưu hóa hơn nữa việc xử lý các truy vấn top-k (truy vấn có mệnh đề ORDER BY và LIMIT) bằng cách bỏ qua các khối dữ liệu không liên quan một cách thông minh để trả về kết quả nhanh hơn, giảm đáng kể lượng dữ liệu được xử lý. Sự tối ưu hóa này giúp sắp xếp lại và điều chỉnh hiệu quả các khối dữ liệu cần đọc dựa trên giá trị tối thiểu/tối đa của cột ORDER BY, chỉ duy trì K hàng đủ điều kiện nhất trong bộ nhớ. Khi cột ORDER BY được sắp xếp hoặc sắp xếp một phần, Amazon Redshift hiện chỉ xử lý các khối dữ liệu tối thiểu cần thiết thay vì quét toàn bộ bảng, nhờ đó loại bỏ được chi phí I/O và điện toán không cần thiết.
Sự cải tiến này mang lại lợi ích rõ rệt cho các truy vấn top-k khi dữ liệu được lưu trữ vĩnh viễn theo thứ tự giảm dần (ORDER BY... DESC LIMIT K) trên các bảng lớn nơi các hàng đủ điều kiện được thêm vào cuối phần lưu trữ dữ liệu. Các ví dụ phổ biến bao gồm:
- Tìm k đơn hàng gần đây nhất từ hàng triệu hoặc hàng tỷ giao dịch
- Lấy top-k sản phẩm có hiệu suất cao nhất hoặc kém nhất (top-k theo thứ tự giảm dần) từ danh mục bán hàng chứa hàng trăm nghìn đơn vị lưu kho (SKU) và hàng triệu hoặc hàng tỷ giao dịch bán hàng liên quan đến tất cả SKU sản phẩm trong danh mục bán hàng của bạn
- Tìm top-k câu lệnh gần đây nhất hoặc cũ nhất (top-k theo thứ tự giảm dần) được mô hình ngôn ngữ lớn (LLM) nền tảng suy ra từ hàng tỷ câu lệnh.
Với sự tối ưu hóa mới này, hiệu suất truy vấn top-k được cải thiện đáng kể. Khách hàng nhận được sự tối ưu hóa này cho truy vấn top-k trong Amazon Redshift mà không mất thêm chi phí từ bản vá P199 ở tất cả các khu vực AWS có Amazon Redshift. Sự tối ưu hóa này được áp dụng tự động cho các truy vấn đủ điều kiện mà không yêu cầu viết lại truy vấn hay thay đổi cấu hình.