Il Catalogo dati AWS Glue ora supporta la generazione pianificata di statistiche a livello di colonna

Inserito il: 13 nov 2024

Catalogo dati AWS Glue ora supporta la generazione programmata di statistiche a livello di colonna per le tabelle Apache Iceberg e per formati di file come Parquet, JSON, CSV, XML, ORC e ION. Con questo aggiornamento puoi semplificare e automatizzare la generazione delle statistiche creando una pianificazione ricorrente nel Catalogo dati Glue. Queste statistiche si integrano con il sistema di ottimizzazione basato sui costi (cost-based optimizer, CBO) di Amazon Redshift Spectrum e Amazon Athena, migliorando le prestazioni delle query e riducendo potenzialmente i costi.

In passato, per programmare la generazione ricorrente delle statistiche, era necessario chiamare i servizi AWS utilizzando una combinazione di AWS Lambda e Pianificatore Amazon EventBridge. Grazie a questa nuova funzionalità ora puoi aggiungere la pianificazione ricorrente direttamente a Catalogo dati Glue, specificando anche la percentuale di campionamento. A ogni esecuzione programmata vengono raccolti il numero di valori distinti (NDV) per le tabelle Apache Iceberg e statistiche aggiuntive come il numero di valori nulli e la lunghezza massima, minima e media per altri formati di file. Man mano che le statistiche vengono aggiornate, Amazon Redshift e Amazon Athena le utilizzano per ottimizzare le query tramite l'ordine di join ottimale o il pushdown di aggregazione basato sui costi. Puoi monitorare in tempo reale lo stato e le tempistiche di ciascuna esecuzione di generazione delle statistiche e accedere ai relativi valori aggiornati.

Per iniziare, puoi programmare la generazione delle statistiche utilizzando la console del Catalogo dati AWS Glue o le API AWS Glue. Il supporto per la generazione programmata delle statistiche del Catalogo AWS Glue è disponibile al pubblico in tutte le regioni in cui è accessibile il Pianificatore Amazon EventBridge. Consulta la documentazione del Catalogo AWS Glue per maggiori informazioni.

Seleziona le tue preferenze relative ai cookie

Il Catalogo dati AWS Glue ora supporta la generazione pianificata di statistiche a livello di colonna

Fine del supporto per Internet Explorer