Il Catalogo dati AWS Glue ora supporta la generazione pianificata di statistiche a livello di colonna
Catalogo dati AWS Glue ora supporta la generazione programmata di statistiche a livello di colonna per le tabelle Apache Iceberg e per formati di file come Parquet, JSON, CSV, XML, ORC e ION. Con questo aggiornamento puoi semplificare e automatizzare la generazione delle statistiche creando una pianificazione ricorrente nel Catalogo dati Glue. Queste statistiche si integrano con il sistema di ottimizzazione basato sui costi (cost-based optimizer, CBO) di Amazon Redshift Spectrum e Amazon Athena, migliorando le prestazioni delle query e riducendo potenzialmente i costi.
In passato, per programmare la generazione ricorrente delle statistiche, era necessario chiamare i servizi AWS utilizzando una combinazione di AWS Lambda e Pianificatore Amazon EventBridge. Grazie a questa nuova funzionalità ora puoi aggiungere la pianificazione ricorrente direttamente a Catalogo dati Glue, specificando anche la percentuale di campionamento. A ogni esecuzione programmata vengono raccolti il numero di valori distinti (NDV) per le tabelle Apache Iceberg e statistiche aggiuntive come il numero di valori nulli e la lunghezza massima, minima e media per altri formati di file. Man mano che le statistiche vengono aggiornate, Amazon Redshift e Amazon Athena le utilizzano per ottimizzare le query tramite l'ordine di join ottimale o il pushdown di aggregazione basato sui costi. Puoi monitorare in tempo reale lo stato e le tempistiche di ciascuna esecuzione di generazione delle statistiche e accedere ai relativi valori aggiornati.
Per iniziare, puoi programmare la generazione delle statistiche utilizzando la console del Catalogo dati AWS Glue o le API AWS Glue. Il supporto per la generazione programmata delle statistiche del Catalogo AWS Glue è disponibile al pubblico in tutte le regioni in cui è accessibile il Pianificatore Amazon EventBridge. Consulta la documentazione del Catalogo AWS Glue per maggiori informazioni.