Inserito il: Oct 11, 2018
Amazon Athena è un servizio di query interattivo che semplifica l'analisi dei dati in Amazon S3 con espressioni SQL standard. Si tratta di un servizio serverless, quindi non occorre gestire alcuna infrastruttura e vengono addebitati solo i costi relativi all'esecuzione delle query. Da oggi, è possibile creare tabelle utilizzando i risultati di una query SELECT e attivare istruzioni CTAS (Create Table As Select). Gli analisti potranno utilizzare le istruzioni CTAS per creare nuove tabelle a partire da quelle esistenti su un sottoinsieme dei dati oppure un sottoinsieme delle colonne, con la possibilità di convertire i dati in un formato a colonne, ad esempio Apache Parquet o Apache ORC, e partizionarli. Athena aggiunge automaticamente le tabelle e le partizioni risultati al catalogo dati di Glue, rendendole immediatamente disponibili per ulteriori query. Di default, le istruzioni CTAS in Athena scrivono i dati in formato Parquet. Altri formati supportati sono Apache ORC, AVRO, JSON e testo semplice, con la possibilità di impiegare Gzip o Snappy come formati di compressione. È anche possibile memorizzare i dati in bucket per colonne o scegliere di crittografarli.
Le istruzioni CTAS aiutano a ridurre i costi e migliorare le prestazioni consentendo agli utenti di eseguire query su tabelle di dimensioni minori derivate da tabelle più grandi. Ad esempio, è possibile utilizzare istruzioni CTAS per creare una tabella che selezioni determinate colonne da due tabelle differenti in formato JSON, converta i risultati in un formato a colonne, ad esempio Parquet, e aggiunga la tabella al catalogo dati di Glue in una singola istruzione, riducendo la complessità e i costi e migliorando la velocità delle query successive. Con le istruzioni CTAS, gli analisti non dovranno più affidarsi ai team di Data Engineering per creare tabelle in linea con carichi di lavoro specifici, dando vita a un ambiente self-service. Consulta questa pagina per visionare altri esempi di istruzioni CTAS. I costi delle istruzioni CTAS sono addebitati in base ai byte scansiti nella fase Select, analogamente alla fatturazione delle query SELECT in Athena.