Il Catalogo dati AWS Glue offre un'ottimizzazione automatica avanzata per le tabelle Apache Iceberg

Inserito il: 19 dic 2024

Il Catalogo dati AWS Glue ora offre un'ottimizzazione automatica avanzata per le tabelle Apache Iceberg. Questo aggiornamento include il supporto per la compattazione dei file di eliminazione, i tipi di dati annidati, i commit parziali dello stato di avanzamento e il supporto per l'evoluzione delle partizioni, rendendo più semplice mantenere data lake transazionali con performance costanti. Queste funzionalità affrontano le sfide incontrate dai clienti con dati in streaming continuamente integrati nelle tabelle Apache Iceberg, risultando in un gran numero di file di eliminazione che monitorano i cambiamenti nei file di dati.

Con questa nuova funzionalità, Catalogo dati Glue monitora costantemente le partizioni delle tabelle per i file di eliminazione posizionali ed equivalenti, avvia il processo di compattazione e registra regolarmente i progressi parziali per ridurre i conflitti. Gli ottimizzatori di Catalogo Glue ora supportano l'evoluzione dello schema durante il riordino o la ridenominazione delle colonne e l'evoluzione delle specifiche delle partizioni. Inoltre, Catalogo Glue ha esteso il supporto per dati complessi fortemente annidati e il supporto per i codec di compressione parquet: zstd, brotli, lz4, gzip, snappy. L'attivazione della compattazione automatica riduce il sovraccarico di eliminazione di file e metadati nelle tabelle Iceberg e migliora le performance delle query. Queste nuove funzionalità vengono applicate automaticamente agli ottimizzatori Catalogo Glue esistenti e nuovi.

Oltre alla console AWS, i clienti possono anche utilizzare il CLI AWS o gli SDK AWS per abilitare l'ottimizzazione delle tabelle Apache Iceberg. Questa funzionalità è disponibile in 14 regioni AWS: Stati Uniti orientali (Virginia settentrionale, Ohio), Stati Uniti occidentali (Oregon), Europa (Irlanda, Londra, Francoforte, Stoccolma), Canada (Centrale), Asia Pacifico (Tokyo, Seoul, Mumbai, Singapore, Sydney), Sud America (San Paolo). Per maggiori informazioni, leggi il blog e consulta la documentazione del Catalogo dati AWS Glue.