Amazon Redshift introduce un'ottimizzazione chiave delle prestazioni per le query Top-K
Amazon Redshift ottimizza ulteriormente l'elaborazione delle query top-k (query con clausole ORDER BY e LIMIT) saltando in modo intelligente i blocchi di dati irrilevanti per restituire i risultati più velocemente, riducendo drasticamente la quantità di dati elaborati. Questa ottimizzazione riordina e regola in modo efficiente i blocchi di dati da leggere in base ai valori minimi/massimi della colonna ORDER BY, mantenendo in memoria solo le K righe più idonee. Quando la colonna ORDER BY è ordinata o parzialmente ordinata, Amazon Redshift ora elabora solo i blocchi di dati minimi necessari invece di scansionare intere tabelle, eliminando l'I/O non necessario e il sovraccarico di calcolo.
Questo miglioramento è particolarmente vantaggioso per le query top-k quando i dati vengono archiviati in modo permanente in ordine decrescente (ORDER BY... DESC LIMIT K) su tabelle di grandi dimensioni in cui le righe idonee vengono aggiunte alla fine dell'archiviazione dei dati. Gli esempi più comuni includono:
- Individuazione dei k ordini più recenti tra milioni o miliardi di transazioni
- Recupero dei k prodotti con le migliori prestazioni o dei k prodotti con le peggiori prestazioni (k elementi in ordine decrescente) da un catalogo vendite contenente centinaia di migliaia di unità di stoccaggio (SKU) e milioni o miliardi di transazioni di vendita associate a tutti gli SKU del catalogo
- Individuazione dei k prompt più recenti o dei k più vecchi (k elementi in ordine decrescente) elaborati da un modello linguistico di grandi dimensioni (LLM) tra miliardi di prompt.
Con questa nuova ottimizzazione, le prestazioni delle query top-k migliorano drasticamente. Questa ottimizzazione per le query top-k è ora disponibile in Amazon Redshift senza costi aggiuntivi a partire dalla versione della patch P199 in tutte le regioni AWS in cui è disponibile Amazon Redshift. Questa ottimizzazione si applica automaticamente alle query idonee senza richiedere riscritture delle query o modifiche alla configurazione.