Amazon Redshift Spectrum consente di eseguire query SQL direttamente su exabyte di dati in Amazon S3. Con Redshift Spectrum, è possibile potenziare le capacità di analisi di Amazon Redshift ben oltre i dati memorizzati nel data warehouse locale, raggiungendo gli enormi volumi di dati non strutturati nei data lake di Amazon S3 senza eseguire alcun caricamento o trasformazione. Redshift Spectrum impiega funzionalità di ottimizzazione delle query molto sofisticate per ricalibrare le risorse di elaborazione su migliaia di nodi, velocizzando così le operazioni anche in presenza di set di dati di grandi dimensioni e query complesse.

Redshift Spectrum interroga direttamente i dati in Amazon S3 utilizzando i formati dati aperti in uso, ad esempio Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV. Poiché il servizio supporta la medesima sintassi SQL di Amazon Redshift, è possibile eseguire query sofisticate utilizzando gli strumenti di business intelligence già in uso. Inoltre, è possibile eseguire query che si applicano sia ai dati con accesso frequente memorizzati in locale in Amazon Redshift sia al set di dati completo memorizzato a costi inferiori in Amazon S3.

Redshift Spectrum offre la libertà di memorizzare i dati dove è più conveniente e nel formato desiderato senza sacrificare le possibilità di elaborazione. Redshift Spectrum non prevede pagamenti anticipati o impegni a lungo termine; i costi sono calcolati sull'esecuzione delle query.

Sei pronto per iniziare a eseguire query?

Inizia a usare Amazon Redshift
Dory_Feature_Start_Querying_Instantly

Con Amazon Redshift Spectrum, è possibile interrogare i dati in Amazon S3 istantaneamente, senza doverli trasferire o trasformare. È sufficiente registrare il proprio catalogo dati di Amazon Athena, AWS Glue o Apache Hive Metastore come schema esterno. La sintassi SQL è la stessa utilizzata per le query sulle tabelle Amazon Redshift, così come gli strumenti di business intelligence sono gli stessi già supportati da Redshift.

Dory_Feature_Fast_Performance

Amazon Redshift offre prestazioni elevate in contesti differenti, ad esempio in analisi ad hoc su grandi set di dati non strutturati in Amazon S3, oppure in analisi frequenti di set di dati strutturati in tabelle di Redshift. I dati più utilizzati possono essere conservati nei cluster Amazon Redshift per ottenere le stesse prestazioni dei dati in locale, utilizzando Amazon Redshift Spectrum per applicare le query anche ai dati con minore accesso memorizzati in Amazon S3, consentendo scalabilità eccezionale a costi ridotti. Il sistema di ottimizzazione delle query di Amazon Redshift determinerà automaticamente in che modo ridurre al minimo i dati scansionati in Amazon S3 e il numero di nodi Redshift Spectrum da utilizzare per la query.

Dory_Feature_Scalable

Con Amazon Redshift Spectrum, non è più necessario occuparsi della scalabilità del cluster. Le funzioni di storage e di elaborazione sono separate, perciò è possibile ricalibrarne le risorse separatamente. È anche possibile eseguire diversi cluster Amazon Redshift con lo stesso data lake di Amazon S3, per consentirne l'esecuzione simultanea. Quando necessario, Redshift Spectrum effettua automaticamente il provisioning di migliaia di istanze, per consentire una rapida esecuzione delle query indipendentemente dai volumi di dati (siano essi nell'ordine dei terabyte o degli exabyte).

Dory_Feature_Pay_per_query

I prezzi di Amazon Redshift Spectrum sono calcolati in base alle query effettivamente eseguite. Saranno addebitati 5 USD per ogni terabyte di dati elaborato nell'esecuzione della query. Redshift Spectrum è in grado di interrogare anche i dati compressi. Potrai quindi risparmiare tra il 30 e il 90% per ogni query e migliorare le prestazioni del servizio semplicemente comprimendo, partizionando o convertendo i dati in un formato a colonne. Redshift Spectrum non prevede alcun costo al di fuori dell'esecuzione delle query. Saranno tuttavia addebitate le tariffe standard di Amazon S3 per lo storage dei dati e le tariffe di Amazon Redshift per i cluster utilizzati.