Ora il catalogo dati AWS Glue automatizza la generazione di statistiche per le nuove tabelle

Inserito il: 3 dic 2024

Il Catalogo dati AWS Glue ora automatizza la generazione di statistiche per le nuove tabelle. Queste statistiche si integrano con il sistema di ottimizzazione basato sui costi (cost-based optimizer, CBO) di Amazon Redshift e Amazon Athena, migliorando le prestazioni delle query e riducendo potenzialmente i costi.

Le statistiche delle tabelle vengono utilizzate da un motore di query, come Amazon Redshift e Amazon Athena, per determinare il modo più efficiente di eseguire una query. In precedenza la creazione di statistiche per le tabelle Apache Iceberg nel catalogo dati AWS Glue richiedeva il monitoraggio e l'aggiornamento continui delle configurazioni delle tabelle. Il catalogo dati AWS Glue ora consente di generare automaticamente statistiche per le nuove tabelle con una sola configurazione del catalogo. Puoi iniziare selezionando il catalogo predefinito nella console di Lake Formation e abilitando le statistiche della tabella nella scheda di configurazione dell'ottimizzazione della tabella. Quando vengono create nuove tabelle o aggiornate quelle esistenti, le statistiche vengono generate utilizzando un campione di righe per tutte le colonne e saranno aggiornate periodicamente. Per le tabelle Apache Iceberg, queste statistiche includono il numero di valori distinti (NDV). Per altri formati di file (ad esempio Parquet) vengono raccolte statistiche aggiuntive, come il numero di valori nulli, i valori massimi e minimi e la lunghezza media. Amazon Redshift e Amazon Athena utilizzano le tabelle aggiornate per ottimizzare le query tramite l'ordine di join ottimale o il pushdown di aggregazione basato sui costi. La console Glue Catalog offre visibilità sulle statistiche aggiornate e sulle esecuzioni di generazione di statistiche.

Il supporto per l'automazione delle statistiche che usano il catalogo dati AWS Glue è disponibile al pubblico nelle seguenti regioni AWS: Stati Uniti orientali (Virginia settentrionale, Ohio), Stati Uniti occidentali (California settentrionale, Oregon), Europa (Irlanda) e Asia Pacifico (Tokyo). Per maggiori informazioni leggi il post del blog e consulta la documentazione del catalogo dati AWS Glue.