Catalogo dati AWS Glue supporta ora la generazione di statistiche per le tabelle Apache Iceberg

Inserito il: 9 lug 2024

Catalogo dati AWS Glue supporta ora la generazione di statistiche aggregate a livello di colonna per le tabelle Apache Iceberg. Queste statistiche sono ora integrate con l'ottimizzatore basato sui costi (cost-based optimizer, CBO) di Amazon Redshift Spectrum, con conseguente miglioramento delle prestazioni delle query e potenziali risparmi sui costi.

Apache Iceberg supporta statistiche come null, min, max, ma non supporta la generazione di statistiche di aggregazione come il numero di valori distinti (NDV). Con questo lancio, ora hai un'esperienza end-to-end integrata in cui gli NDV vengono raccolti su colonne della tabella Apache Iceberg e archiviati nei file Apache Iceberg Puffin. Amazon Redshift utilizza queste statistiche di aggregazione per ottimizzare le query applicando i filtri più restrittivi il prima possibile nell'elaborazione delle query, limitando così l'utilizzo della memoria e il numero di record letti per fornire i risultati delle query.

Per iniziare, puoi generare statistiche per una tabella Apache Iceberg utilizzando la console AWS Glue o le API AWS Glue. Ad ogni esecuzione, Glue Catalog calcolerà le statistiche per lo snapshot corrente della tabella Iceberg, archiviato in un file puffin Iceberg e in Glue Catalog. Man mano che esegui le query da Amazon Redshift Spectrum, otterrai automaticamente miglioramenti delle prestazioni delle query grazie all'integrazione con Apache Iceberg.

Il supporto per la generazione di statistiche di AWS Glue Catalog è disponibile al pubblico nelle seguenti regioni AWS: Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Europa (Francoforte), Asia Pacifico (Mumbai). Leggi il post del blog e consulta la documentazione di AWS Glue Catalog per saperne di più.