Amazon Redshift memperkenalkan pengoptimalan kinerja utama untuk kueri Top-K
Amazon Redshift lebih lanjut mengoptimalkan pemrosesan kueri top-k (kueri dengan klausa ORDER BY dan LIMIT) dengan secara cerdas melewatkan blok data yang tidak relevan untuk mengembalikan hasil lebih cepat, sehingga secara signifikan mengurangi jumlah data yang diproses. Pengoptimalan ini menyusun ulang dan secara efisien menyesuaikan blok data yang akan dibaca berdasarkan nilai min/maks kolom ORDER BY, hanya mempertahankan K baris paling memenuhi syarat dalam memori. Saat kolom ORDER BY diurutkan atau sebagian diurutkan, Amazon Redshift kini hanya memproses blok data minimal yang dibutuhkan dan tidak memindai seluruh tabel, sehingga menghilangkan I/O dan beban komputasi yang tidak perlu.
Peningkatan ini sangat bermanfaat untuk kueri top-k ketika data disimpan secara permanen dalam urutan menurun (ORDER BY ...). DESC LIMIT K) pada tabel besar di mana baris yang memenuhi syarat ditambahkan di akhir penyimpanan data. Contoh umumnya meliputi:
- Menemukan k pesanan terbaru dari jutaan atau miliaran transaksi
- Mengambil k produk dengan kinerja terbaik atau k produk dengan kinerja terburuk (k produk dengan kinerja terburuk dalam urutan menurun) dari katalog penjualan Anda yang berisi ratusan ribu unit penyimpanan stok (SKU) dan jutaan atau miliaran transaksi penjualan yang terkait dengan semua SKU produk dalam katalog penjualan Anda
- Menemukan prompt top-k terbaru atau top-k terlama (k teratas dalam urutan menurun) yang disimpulkan oleh model bahasa besar (LLM) dasar dari miliaran prompt.
Dengan pengoptimalan baru ini, kinerja kueri top-k meningkat secara signifikan. Pengoptimalan untuk kueri top-k ini kini tersedia di Amazon Redshift tanpa biaya tambahan dimulai dengan rilis patch P199 di semua AWS Region tempat Amazon Redshift tersedia. Pengoptimalan ini secara otomatis berlaku untuk kueri yang memenuhi syarat tanpa memerlukan penulisan ulang kueri atau perubahan konfigurasi.