Prova Amazon Redshift gratuitamente

Richiedi la prova gratuita
Ulteriori informazioni

Per 2 mesi avrai a disposizione 750 ore di nodi DC2.Large. Per richiedere la prova gratuita:

1. Crea un account AWS e accedi alla console di Amazon Redshift

2. Avvia un cluster Amazon Redshift e seleziona il tipo di nodo DC2.Large

Inoltre, scopri come acquisire dati e generare report gratuitamente sulla pagina delle prove gratuite dei partner.


D: Cos'è Amazon Redshift?

Amazon Redshift è una soluzione di data warehousing performante e completamente gestita che semplifica e riduce i costi dell'analisi di dati utilizzando SQL standard e gli strumenti di business intelligence già in uso. Questo servizio consente di eseguire query di analisi complesse su petabyte di dati strutturati utilizzando sofisticati sistemi di ottimizzazione delle query, storage a colonne su dischi ad elevate prestazioni e query in parallelo di grandi volumi di dati. Nella maggior parte dei casi, i risultati vengono restituiti in pochi secondi. Con Redshift è possibile iniziare con una soluzione di base a un costo di soli 0,25 USD all'ora, senza impegni né pagamenti anticipati, per poi ricalibrare la capacità fino a più petabyte a una tariffa pari a 1.000 USD per terabyte all'anno, meno di un decimo dei costi delle soluzioni tradizionali. Amazon Redshift, inoltre, include Amazon Redshift Spectrum, consentendo di eseguire query SQL direttamente su exabyte di dati non strutturati in Amazon S3. Non è necessario procedere a caricamenti o trasformazioni ed è possibile utilizzare formati dati aperti, tra cui Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV. Redshift Spectrum ricalibra automaticamente la capacità di elaborazione in base ai dati presi in esame, perciò le query in Amazon S3 sono sempre rapide, indipendentemente dal volume di dati interessato.

L’amministrazione dei data warehouse tradizionali richiede un notevole dispendio di tempo e risorse, specialmente nel caso di set di dati di grandi dimensioni. I costi finanziari associati alla realizzazione, alla manutenzione e all’espansione dei data warehouse locali gestiti autonomamente sono inoltre molto elevati. Con l'aumento del volume di dati, si impone la costante necessità di scegliere quali dati caricare nel data warehouse e quali archiviare nello storage, in modo da tenere sotto controllo sia i costi sia la complessità senza sacrificare le prestazioni. Amazon Redshift non solo riduce i costi e il carico operativo di un data warehouse; grazie a Redshift Spectrum, rende l'analisi di grandi volumi di dati in formato nativo un'operazione semplice, eliminando la necessità di eseguire caricamenti.

Amazon Redshift offre capacità di query rapide su dati strutturati mediante ben noti client basati su SQL e strumenti di Business Intelligence (BI) con collegamenti a ODBC e JDBC standard. Le query vengono distribuite e parallelizzate su più risorse fisiche. È inoltre possibile scalare facilmente le dimensioni dei data warehouse Amazon Redshift, espandendole o riducendole con pochi clic nella Console di gestione AWS o con una singola chiamata API. Amazon Redshift corregge automaticamente il data warehouse, creandone i backup e salvandoli per un periodo di retention definito dall'utente. Per migliorare la disponibilità e la durata dei dati, Amazon Redshift utilizza operazioni di replica e backup continuo, ed è in grado di eseguire automaticamente il ripristino dopo eventuali guasti di componenti e nodi. Amazon Redshift supporta inoltre la cifratura Amazon Virtual Private Cloud (Amazon VPC), SSL e AES-256, nonché i moduli di sicurezza hardware (HSM), per proteggere i dati degli utenti in transito e inattivi.

Come per tutti i servizi di Amazon Web Services, non ci sono costi aggiuntivi e si pagano solo le risorse effettivamente utilizzate. Amazon Redshift permette di pagare in base all’utilizzo. Poi persino provare gratuitamente Amazon Redshift.

D: Cos'è Amazon Redshift Spectrum?

Amazon Redshift Spectrum è una caratteristica di Amazon Redshift che permette di eseguire query su exabyte di dati non strutturati in Amazon S3 senza dover caricare o trasformare i dati. Quando viene inoltrata, la query raggiunge l'endpoint SQL di Amazon Redshift, il quale genera e ottimizza un piano di query. Amazon Redshift determinerà quindi quali dati si trovano in locale e quali in Amazon S3, genererà un piano per ridurre al minimo i dati che è necessario leggere in Amazon S3 e richiederà a specifiche risorse condivise di un pool di Amazon Redshift Spectrum la lettura e l'elaborazione dei dati da Amazon S3.

Redshift Spectrum, se necessario, effettuerà il provisioning di migliaia di istanze, perciò le query saranno rapide indipendentemente dalle dimensioni. Inoltre, è possibile utilizzare con Amazon S3 la stessa sintassi SQL utilizzata per le query in Amazon Redshift, collegando lo stesso endpoint di Amazon Redshift agli strumenti di business intelligence esistenti. Redshift Spectrum permette di separare le funzioni di storage e di elaborazione, perciò è possibile ricalibrarne le risorse separatamente. È possibile impostare tutti i cluster Amazon Redshift necessari per interrogare i data lake S3 fornendo disponibilità elevata ed esecuzioni simultanee illimitate. Redshift Spectrum offre la libertà di memorizzare i dati dove è più conveniente e nel formato desiderato senza sacrificare le possibilità di elaborazione.

D: Quali attività sono gestite da Amazon Redshift per mio conto?

Amazon Redshift gestisce le attività necessarie per configurare, gestire e scalare i data warehouse, dal provisioning della capacità dell’infrastruttura all’automazione dei task amministrativi continui quali backup e patch. Amazon Redshift provvede al monitoraggio continuo dei tuoi nodi e delle tue unità per aiutarti nei ripristini dopo eventuali guasti. Per Redshift Spectrum, Amazon Redshift gestisce l'infrastruttura di elaborazione, il bilanciamento del carico, la pianificazione e l'esecuzione delle query sui dati memorizzati in Amazon S3.

D: Come si posizionano le prestazioni di Amazon Redshift rispetto alla maggior parte dei database tradizionali per data warehousing e analisi?

Amazon Redshift utilizza una serie di innovazioni per ottenere prestazioni superiori fino dieci volte rispetto a quelle dei database tradizionali per i carichi di lavoro di data warehousing e di analisi:

  • Storage dei dati a colonne: invece di memorizzare i dati come una serie di righe, Amazon Redshift li organizza per colonne. A differenza dei sistemi basati sulle righe, ideali per l’elaborazione di transazioni, quelli basati sulle colonne sono ideali per le attività di data warehousing e di analisi, nelle quali le query comportano spesso aggregazioni su set di dati di grandi dimensioni. Poiché vengono elaborate soltanto le colonne coinvolte nelle query, e i dati in forma colonnare vengono memorizzati sequenzialmente sui supporti di storage, i sistemi basati su colonne richiedono un numero nettamente inferiore di I/O, migliorando notevolmente le prestazioni di query.
  • Compressione avanzata: i datastore colonnari consentono una compressione molto più spinta di quelli per righe, in quanto i dati simili vengono memorizzati sequenzialmente su disco. Amazon Redshift utilizza più tecniche di compressione e riesce spesso a raggiungere un livello di compressione notevole rispetto ai datastore relazionali tradizionali. Amazon Redshift non richiede inoltre indici o visualizzazioni materializzate, occupando di conseguenza meno spazio dei sistemi tradizionali di database relazionali. Quando carica i dati in una tabella vuota, Amazon Redshift campiona automaticamente i dati, selezionando lo schema di compressione più indicato.
  • Elaborazione parallela su larga scala (MPP): Amazon Redshift distribuisce automaticamente il carico di dati e query fra tutti i nodi. Amazon Redshift semplifica l’aggiunta di nodi ai data warehouse, consentendo di mantenere prestazioni di query rapide al crescere dei medesimi.
  • Redshift Spectrum: Redshift Spectrum consente di eseguire query su exabyte di dati in Amazon S3. Non è necessario caricare o eseguire la trasformazione dei dati. Anche se i dati non sono memorizzati in Amazon Redshift, con Redshift Spectrum è possibile interrogare set di dati di enormi dimensioni in Amazon S3. Quando viene inoltrata, la query raggiunge l'endpoint SQL di Amazon Redshift, il quale genera un piano di query. Amazon Redshift determinerà quindi quali dati si trovano in locale e quali in Amazon S3, genererà un piano per ridurre al minimo i dati che è necessario leggere in Amazon S3, richiederà a specifiche risorse condivise di un pool di Redshift Spectrum la lettura e l'elaborazione dei dati da Amazon S3 e inoltrerà i risultati nel cluster Amazon Redshift per eventuali ulteriori operazioni di elaborazione.

D: Come si inizia a usare Amazon Redshift?

Puoi registrarti e iniziare le tue attività in pochi minuti tramite la pagina di dettaglio di Amazon Redshift o la Console di gestione AWS. Se ancora non disponi di un account AWS, ti verrà richiesto di crearne uno.

Per utilizzare Redshift Spectrum, è innanzitutto necessario memorizzare dati in Amazon S3. Quindi, è possibile definirne i metadati nel cluster Amazon Redshift oppure registrare i metadati già definiti in un metastore Hive. Inoltre, è possibile eseguire il comando CREATE EXTERNAL SCHEMA SQL nel cluster Amazon Redshift per definire o registrare un database nel catalogo come schema esterno con Amazon Redshift. In questo modo potranno essere eseguite query in Amazon S3 con la stessa sintassi SQL utilizzata per tabelle locali e strumenti di business intelligence esistenti che supportino Amazon Redshift. La definizione di database esterno creata con la sintassi SQL di Amazon Redshift viene registrata nello stesso catalogo dati impiegato di Amazon Athena. Facoltativamente, è anche possibile gestire la definizione di database esterno dal catalogo di Amazon Athena. 

Visita la pagina sulle nozioni di base per scoprire come provare gratuitamente Amazon Redshift.

D: In quali regioni AWS è disponibile Amazon Redshift?

Per informazioni sulla disponibilità locale di Amazon Redshift, consulta la tabella delle regioni nella pagina relativa all'infrastruttura globale AWS.

D: In quali regioni AWS è disponibile Redshift Spectrum?

Amazon Redshift Spectrum è disponibile nelle seguenti regioni AWS: Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), UE (Francoforte), UE (Irlanda), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney) e Asia Pacifico (Tokyo).

D: Come si crea un cluster di data warehouse Amazon Redshift?

Puoi creare facilmente un cluster di data warehouse Amazon Redshift utilizzando la Console di gestione AWS o le API di Amazon Redshift. Puoi iniziare con un data warehouse da 160 GB formato da un singolo nodo ed espanderlo fino a ben un petabyte o più con pochi clic nella Console AWS o una singola chiamata API.

La configurazione con un singolo nodo ti permette di iniziare a usare Amazon Redshift in modo rapido ed economico, e di passare a una configurazione a più nodi in base alla crescita delle tue esigenze. La configurazione a più nodi necessita di un nodo leader che gestisca i collegamenti del client e riceva le query, nonché di due nodi di calcolo che memorizzino i dati ed eseguano query e calcoli. Il provisioning del nodo leader viene effettuato automaticamente e gratuitamente.

Specifica semplicemente la zona di disponibilità (opzionale) che preferisci, il numero di nodi, i tipi di nodi, un nome e una password master, i gruppi di sicurezza, le preferenze di retention dei backup e altre impostazioni di sistema. Una volta selezionata la configurazione desiderata, Amazon Redshift effettua il provisioning delle risorse necessarie e configura il tuo cluster di data warehouse.

D: Quali attività svolge un nodo leader? Quali operazioni effettua un nodo di calcolo?

Un nodo leader riceve le query provenienti dalle applicazioni client, analizza le query e sviluppa i piani di esecuzione, che sono serie ordinate di operazioni di elaborazione di tali query. Il nodo leader coordina poi con i nodi di calcolo l’esecuzione parallela dei piani in questione, aggrega i risultati intermedi provenienti da tali nodi e infine fornisce i risultati alle applicazioni client.

I nodi di calcolo eseguono le operazioni specificate nei piani di esecuzione e si scambiano i dati necessari per elaborare le query. I risultati intermedi vengono trasmessi al nodo leader per essere aggregati prima dell’invio alle applicazioni client.

D: Qual è la massima capacità di storage per nodo di calcolo? Per ottenere prestazioni ottimali, qual è il volume di dati consigliato per nodo di calcolo?

È possibile creare un cluster utilizzando nodi di tipo Dense Storage (DS) o Dense Compute (DC). Con i primi si creano data warehouse composti di dischi rigidi (HDD) a prezzi competitivi. Con i secondi si creano data warehouse ad alte prestazioni composti di dischi a stato solido (SSD), CPU performanti ed elevate quantità di RAM.

Sono disponibili nodi di tipo Dense Storage (DS) di due dimensioni: Extra Large ed Eight Extra Large. I nodi Extra Large (XL) sono dotati di 3 HDD con un totale di 2 TB di storage su supporto magnetico, mentre i nodi Eight Extra Large (8XL) sono dotati di 24 HDD con un totale di 16 TB di storage su supporto magnetico. I nodi DS2.8XLarge dispongono di 36 core virtuali Intel Xeon E5-2676 v3 (Haswell) e di 244 GiB di RAM, mentre quelli DS2.XL sono dotati di 4 core virtuali Intel Xeon E5-2676 v3 (Haswell) e di 31 GiB di RAM. Per maggiori dettagli, consulta la pagina dei prezzi. Puoi iniziare con un data warehouse da 2 TB con un singolo nodo Extra Large per 0,85 USD l’ora, ed espandere la tua capacità fino a oltre un petabyte. Puoi pagare all’ora o utilizzare i prezzi delle istanze riservate per ridurre i tuoi costi a meno di 1.000 USD per TB all’anno.

Anche i nodi di tipo Dense Compute (DC) sono disponibili in due versioni. La misura Large dispone di 160 GB di storage SSD, 2 core virtuali Intel Xeon E5-2670v2 (Ivy Bridge) e 15 GiB di RAM. La versione Eight Extra Large è sedici volte più grande, con 2,56 TB di storage su SSD, 32 core virtuali Intel Xeon E5-2670v2 e 244 GiB di RAM. Puoi iniziare con un singolo nodo DC2.Large per 0,25 USD l'ora ed espandere la capacità fino a 128 nodi 8XL con 326 TB di storage su SSD, 3.200 core virtuali e 24 TiB di RAM.

L’architettura MPP di Amazon Redshift permette di aumentare le prestazioni incrementando il numero di nodi del cluster di data warehouse. Il volume ottimale di dati per nodo di calcolo dipende dalle caratteristiche dell’applicazione e dalle esigenze di prestazione in relazione alle query.

D: Quanti nodi posso specificare per ogni cluster di data warehouse Amazon Redshift?

Un cluster di data warehouse Amazon Redshift può contenere da 1 a 128 nodi di calcolo, a seconda della loro tipologia. Per i dettagli, consulta la documentazione.

D: Come accedo al mio cluster di data warehouse in esecuzione?

Una volta che il tuo cluster di data è disponibile, puoi recuperare i suoi endpoint e la stringa di collegamento a JDBC e ODBC tramite la Console di gestione AWS oppure utilizzando le API Redshift. Puoi quindi utilizzare tale stringa di collegamento con lo strumento di database, il linguaggio di programmazione o lo strumento di Business Intelligence (BI) che preferisci. Dovrai autorizzare le richieste di rete al tuo cluster di data warehouse in esecuzione. Per avere una spiegazione dettagliata, consulta la nostra Guida alle operazioni di base.

D: In quali casi è preferibile usare Amazon Redshift anziché Amazon RDS?

Sia Amazon Redshift, sia Amazon RDS consentono di eseguire nel cloud un database relazionale tradizionale alleggerendo allo stesso tempo il carico di lavoro dedicato all'amministrazione del database. I clienti utilizzano i database Amazon RDS sia per l’elaborazione di transazioni online (OLTP) sia per attività di analisi e creazione di report. Amazon Redshift utilizza le dimensioni e le risorse di più nodi, adottando una serie di ottimizzazioni per offrire miglioramenti di ordini di grandezza rispetto ai database tradizionali in relazione ai carichi di lavoro di analisi e preparazione di report che coinvolgono set di dati di dimensioni molto grandi. Amazon Redshift offre un’eccellente opzione di espansione di scala al crescere del volume di dati e della complessità delle query, oppure quando si desidera evitare che l’elaborazione per le analisi o la preparazione di report interferisca con le prestazioni di evasione del carico di lavoro OLTP.

D: In quali casi è preferibile usare Amazon Redshift anziché Amazon EMR?

È consigliabile usare Amazon EMR con un codice personalizzato creato per elaborare e analizzare set di dati di dimensioni significative con framework di elaborazione dei Big Data come Apache, Spark, Hadoop, Presto e HBase. Amazon EMR offre il controllo completo sulla configurazione dei cluster e sul software installato su di essi.

I servizi di data warehousing come Amazon Redshift sono progettati per un genere differente di analisi. I data warehouse sono ideali per raccogliere dati provenienti da diverse origini, ad esempio inventari, applicazioni finanziarie e sistemi di vendita al dettaglio. Per assicurare una creazione di report coerente in tutta un'organizzazione, i data warehouse memorizzano i dati in modo altamente strutturato. Tale struttura crea regole di coerenza dei dati in tabelle di database.

Amazon Redshift è il miglior servizio disponibile quando si tratta di ottenere prestazioni elevate con query complesse su grandi volumi di dati strutturati.

Q: Redshift Spectrum può sostituire Amazon EMR?

No. Redshift Spectrum è un'ottima soluzione per eseguire query su dati in Amazon Redshift ed S3, ma non è adatto per i casi d'uso che in genere richiedono le grandi aziende da framework di elaborazione come Amazon EMR.
Amazon EMR offre molto di più rispetto alla semplice esecuzione di query SQL. Si tratta infatti di un servizio gestito che consente di elaborare e analizzare enormi volumi di set di dati in cluster completamente personalizzabili, utilizzando le versioni più recenti dei più noti framework di elaborazione per Big Data quali Spark, Hadoop e Presto. Con Amazon EMR è possibile eseguire un'ampia gamma di attività di elaborazione dei dati in scalabilità orizzontale per applicazioni quali apprendimento automatico, analisi di grafi, trasformazione dei dati, streaming dei dati e, potenzialmente, tutto ciò che può essere scritto sotto forma di codice. Inoltre, è possibile utilizzare Redshift Spectrum insieme a EMR. Amazon Redshift Spectrum impiega lo stesso approccio di Amazon EMR per la memorizzazione di definizioni di tabella. Se quindi usi già EMR per l'elaborazione di un datastore di grandi dimensioni, puoi impiegare Redshift Spectrum per interrogare i dati nello stesso momento, senza interferire con i processi di Amazon EMR.

I servizi di query, il data warehouse e i complessi framework di elaborazione dei dati seguono percorsi diversi e vanno utilizzati in ambiti differenti. Devi solo scegliere lo strumento adatto per il tipo di lavoro.

D: In quali casi è più indicato usare Amazon Athena o Redshift Spectrum?

Amazon Athena è il modo più semplice per consentire ai dipendenti di eseguire query ad hoc sui dati in Amazon S3. Athena è un servizio serverless, per cui non è necessario installare o gestire un'infrastruttura, perciò è possibile iniziare immediatamente ad analizzare i dati.

Se disponi di dati utilizzati con maggiore frequenza e che quindi devono essere memorizzati in formato coerente e altamente strutturato, allora conviene utilizzare una soluzione di data warehousing come Amazon Redshift. In questo modo avrai la flessibilità di memorizzare i dati strutturati con accesso più frequente in Amazon Redshift e utilizzare Redshift Spectrum per estendere le query di Amazon Redshift a tutti i dati memorizzati nel data lake Amazon S3. Il servizio offre la libertà di memorizzare i dati dove è più conveniente e nel formato desiderato senza sacrificare le possibilità di elaborazione.

D: È possibile usare Redshift Spectrum per eseguire query di dati da elaborare con Amazon EMR?

Sì, Redshift Spectrum supporta Apache Hive Metastore, lo stesso servizio impiegato da Amazon EMR per individuare definizioni di tabelle e dati. Se usi Amazon EMR e disponi già di un'istanza Hive Metastore, per utilizzarla sarà sufficiente configurare il cluster di Amazon Redshift. Potrai quindi iniziare immediatamente a interrogare i dati con Amazon EMR.

D: Quale convenienza ho nell’utilizzare Amazon Redshift anziché eseguire un mio cluster di data warehouse MPP su Amazon EC2?

Amazon Redshift gestisce automaticamente molte delle attività dispendiose a livello di tempo associate alla gestione dei propri data warehouse, fra cui:

  • Configurazione: con Amazon Redshift è sufficiente creare un cluster di data warehouse, definire lo schema desiderato e iniziare a caricare e sottoporre a query i dati. Il sistema gestisce per te tutte le attività di provisioning, configurazione e applicazione di patch.
  • Durata dei dati: Amazon Redshift replica i tuoi dati all’interno del tuo cluster di data warehouse e crea continuamente backup dei tuoi dati in Amazon S3, progettato per garantire una durata a undici nove. Amazon Redshift crea immagini speculari dei dati di ciascuna unità su altri nodi del tuo cluster. In caso di guasto di un’unità, l’elaborazione delle query prosegue con un leggero aumento della latenza mentre Redshift ricrea l’unità partendo dalle repliche. In caso di guasto di uno o più nodi, Amazon Redshift effettua automaticamente il provisioning di uno o più nuovi nodi e inizia a ripristinare i dati partendo da altre unità del cluster o da Amazon S3. Esso assegna la priorità al ripristino dei dati oggetto di query con maggiore frequenza, in modo da ripristinare le prestazioni relative alle query di uso più frequente.
  • Dimensionamento: a mano a mano che le tue esigenze di capacità e prestazioni si evolvono, puoi aggiungere o rimuovere nodi del tuo cluster di data warehouse Amazon Redshift con una singola chiamata API o con pochi clic nella Console di gestione AWS.
  • Aggiornamenti e patch automatici: Amazon Redshift applica automaticamente aggiornamenti e patch al tuo data warehouse, consentendoti di concentrarti sulla tua applicazione anziché sulla sua amministrazione.
  • Funzionalità di query su exabyte di dati: Redshift Spectrum consente di eseguire query su exabyte di dati in Amazon S3. Non è necessario caricare o eseguire la trasformazione dei dati. Anche se i dati non sono memorizzati in Amazon Redshift, con Redshift Spectrum è possibile interrogare set di dati di enormi dimensioni in Amazon S3.

Torna all'inizio »

D: Come viene addebitato e fatturato il mio utilizzo di Amazon Redshift?

I prezzi sono calcolati solo in base all'uso effettivo, senza tariffe minime né commissioni di installazione. Il tuo utilizzo viene fatturato in base a quanto segue:

  • Ore di nodo di calcolo: le ore di nodo di calcolo sono le ore totali di esecuzione di tutti i nodi di calcolo nel periodo di fatturazione. Viene addebitata 1 unità per nodo all’ora, quindi un cluster di data warehouse con 3 nodi in esecuzione continua per un intero mese corrisponde a 2.160 ore di istanza. Non vengono addebitate le ore del nodo leader, ma soltanto quelle dei nodi di calcolo.
  • Storage di backup: lo storage di backup è lo spazio di archiviazione associato agli snapshot automatici e manuali per il data warehouse. Estendendo il periodo di retention dei backup o effettuando ulteriori snapshot, si aumenta lo storage di backup consumato dal data warehouse. Non vi sono costi aggiuntivi per lo storage dei backup fino al 100% del proprio storage assegnato per un cluster di data warehousing attivo. Per un cluster di data warehouse con un singolo nodo XL attivo con 2 TB di storage locale di istanze, forniamo ad esempio fino a 2 TB al mese di storage di backup senza costi aggiuntivi. L’eventuale spazio di storage di backup aggiuntivo e i backup archiviati dopo che il cluster è stato terminato vengono fatturati secondo le tariffe standard di Amazon S3.
  • Trasferimento di dati: non sono previsti costi per il trasferimento di dati da o verso Amazon Redshift e Amazon S3 all'interno di una stessa regione. Per altri tipi di trasferimento di dati da e verso Amazon Redshift, vengono addebitate le tariffe standard di AWS per il trasferimento di dati.
  • Scansione dei dati: con Redshift Spectrum, sono addebitati i costi relativi al volume di dati in Amazon S3 scansionati per l'esecuzione di una query. Redshift Spectrum non prevede alcun costo al di fuori dell'esecuzione delle query. Se i dati vengono memorizzati in un formato a colonne, ad esempio Parquet e RC, i costi risulteranno ridotti, perché Redshift Spectrum scansionerà solamente le colonne interessate dalla query e non tutte le righe. Analogamente, è possibile contenere i costi anche comprimendo i dati in uno dei formati supportati da Redshift Spectrum. Saranno comunque addebitate le tariffe standard di Amazon S3 per lo storage e di Amazon Redshift per i cluster utilizzati.

Per informazioni sulle tariffe di Amazon Redshift, consulta la pagina dei prezzi di Amazon Redshift.

D: Quando inizia e quando termina la fatturazione dei cluster di data warehouse Amazon Redshift?

La fatturazione relativa a un cluster di data warehouse inizia non appena tale cluster è disponibile. La fatturazione continua fino a quando il cluster di data warehouse termina, a seguito della sua eliminazione o in caso di malfunzionamento dell'istanza.

D: Come vengono definite le ore fatturabili di un'istanza Amazon Redshift?

Le ore di utilizzo dei nodi vengono fatturate per ogni ora di esecuzione in stato disponibile del cluster di data warehouse. Se non desideri più pagare per un cluster di data warehouse, devi eliminarlo per evitare che vengano fatturate ore supplementari associate ai nodi. Le ore parziali di utilizzo vengono fatturate come ore complete.

D: I prezzi includono le tasse?

Salvo diversa indicazione, i prezzi sono al netto di eventuali tasse e imposte doganali, inclusa l'IVA ed eventuali imposte sulle vendite. Per i clienti con indirizzo di fatturazione in Giappone, l'utilizzo dei servizi AWS è soggetto all'imposta sul consumo giapponese. Ulteriori informazioni.

Torna all'inizio »


D: Come faccio a caricare i dati crea nel mio data warehouse Amazon Redshift?

Puoi caricare i dati in Amazon Redshift da una serie di fonti di dati fra cui Amazon S3, Amazon DynamoDB, Amazon EMRAWS Data Pipeline e/o qualunque host con predisposizione SSH su Amazon EC2 o locale. Amazon Redshift tenta di caricare i tuoi dati in parallelo in ciascun nodo di calcolo, per aumentare al massimo la velocità alla quale puoi inglobare i dati nel tuo cluster di data warehouse. Per maggiori dettagli sul caricamento dei dati in Amazon Redshift, prendi visione della nostra Guida alle operazioni di base.

D: Posso caricare i dati utilizzando istruzioni ‘INSERT' di SQL?

Sì, i client possono collegarsi ad Amazon Redshift utilizzando ODBC o JDBC e inviare comandi 'insert' di SQL per inserire i dati. Tale metodo, tuttavia, è più lento rispetto all’uso di S3 o DynamoDB, in quanto questi ultimi caricano i dati in parallelo su ciascun nodo di calcolo, mentre le istruzioni Insert di SQL li caricano attraverso l’unico nodo leader.

D: Come carico in Amazon Redshift i dati provenienti dalle mie fonti di dati Amazon RDS, Amazon EMR, Amazon DynamoDB e Amazon EC2 esistenti?

Puoi usare il comando COPY per caricare direttamente in Amazon Redshift, in parallelo, dati provenienti da Amazon EMR, Amazon DynamoDB o da qualsiasi host compatibile con SSH. Redshift Spectrum consente inoltre di caricare i dati da Amazon S3 nel cluster con un semplice comando INSERT INTO. Con questo comando è possibile caricare dati da formati differenti, ad esempio Parquet e RC. Questo approccio, tuttavia, peserà sui costi di Redshift Spectrum a causa della scansione dei dati da Amazon S3.

Molte aziende che si occupano di trasformazione dei dati hanno inoltre certificato Amazon Redshift per l'uso con i loro strumenti; molte di esse offrono prove gratuite per iniziare a caricare i dati. AWS Data Pipeline fornisce infine una soluzione ad alte prestazioni, affidabile e con tolleranza ai guasti per caricare i dati da una serie di origini dati in AWS. Puoi utilizzare AWS Data Pipeline per specificare l'origine dati e le trasformazioni desiderate dei dati, quindi caricare i dati in Amazon Redshift con uno script di importazione scritto preventivamente. AWS Glue, inoltre, è un servizio di estrazione, trasferimento e caricamento (ETL) che semplifica la preparazione e il caricamento dei dati in strumenti di analisi. Per avviare un processo ETL con AWS Glue sono sufficienti pochi clic nella Console di gestione AWS.

D: Devo eseguire il caricamento iniziale di molti dati in Amazon Redshift. Il trasferimento tramite Internet richiederebbe molto tempo. Come posso fare?

Puoi trasferire i dati ad Amazon S3 utilizzando AWS Import/Export e opportuni dispositivi di storage portatili. Puoi inoltre utilizzare AWS Direct Connect per creare un collegamento di rete privato fra la tua rete o il data center e AWS. Per il trasferimento dei dati, puoi scegliere la porta di collegamento a 1 Gbit/sec o a 10 Gbit/sec.

Torna all'inizio »


D: In che modo Amazon Redshift protegge i miei dati?

Amazon Redshift crittografa e protegge i tuoi dati in transito e inattivi utilizzando tecniche di crittografia standard del settore. Per mantenere protetti i dati in transito, Amazon Redshift supporta i collegamenti con predisposizione SSL fra le applicazioni client e il cluster di data warehouse Redshift. Per mantenere protetti i dati inattivi, Amazon Redshift crittografa ciascun blocco utilizzando un protocollo AES-256 con accelerazione hardware durante la scrittura su disco. Tale processo avviene a un livello basso nel sottosistema di I/O, che crittografa tutto ciò che viene scritto su disco, compresi i risultati intermedi delle query. Il backup dei blocchi avviene nella condizioni in cui si trovano, vale a dire crittografati. Per impostazione predefinita, Amazon Redshift provvede alla gestione delle chiavi, ma puoi decidere di gestire le tue chiavi utilizzando i tuoi moduli di sicurezza hardware (HSM) o tramite AWS Key Management Service.

Redshift Spectrum supporta l'opzione di crittografia lato server o SSE (Server Side Encryption) di Amazon S3, tramite la chiave gestita predefinita dell'account utilizzata da AWS Key Management Service (KMS).

D: È possibile usare Amazon Redshift in Amazon Virtual Private Cloud (Amazon VPC)?

Sì, puoi utilizzare Amazon Redshift nell’ambito della tua configurazione VPC. Amazon VPC ti permette di definire una topologia di rete virtuale simile a una rete tradizionale che puoi gestire nel tuo data center. Questa soluzione ti offre un controllo completo sugli utenti che possono accedere al tuo cluster di data warehouse Amazon Redshift.

Redshift Spectrum può essere utilizzato con un cluster Amazon Redshift all'interno di un cloud privato virtuale. Redshift Spectrum, tuttavia, al momento non supporta la funzionalità Enhanced VPC Routing.

D: Posso accedere direttamente ai miei nodi di calcolo Amazon Redshift?

No. I nodi di calcolo Amazon Redshift si trovano in uno spazio di rete privato, e sono accessibili soltanto dal nodo leader del cluster di data warehouse. Ciò garantisce un layer di sicurezza aggiuntivo per i dati.

Torna all'inizio »


D: Che cosa succede alla disponibilità del mio cluster di data warehouse e alla durata dei miei dati in caso di guasto di un’unità di uno dei miei nodi?

In caso di guasto di un’unità, il tuo cluster di data warehouse Amazon Redshift rimane disponibile, ma potresti osservare una lieve riduzione delle prestazioni per alcune query. In caso di guasto di un’unità, Amazon Redshift utilizza in modo trasparente una replica dei dati di tale unità memorizzata in altre unità del medesimo nodo. Amazon Redshift tenta inoltre di trasferire i tuoi dati in un’unità funzionante, oppure sostituisce il tuo nodo se non vi riesce.I cluster a nodo singolo non supportano la replicazione dei dati. In caso di guasto di un’unità, occorre ripristinare il cluster partendo da uno snapshot su S3. Per la produzione si consiglia di utilizzare almeno due nodi.

D: Che cosa succede alla disponibilità del mio cluster di data warehouse e alla durata dei miei dati in caso di guasto di un singolo nodo?

Amazon Redshift rileva automaticamente la presenza di un nodo guasto nel tuo cluster di data warehouse, e lo sostituisce. Il cluster di data warehouse non è disponibile per query e aggiornamenti fino a quando non è terminato il provisioning del nodo sostitutivo e il medesimo non è stato aggiunto al DB. Amazon Redshift mette immediatamente a disposizione il nodo sostitutivo e carica per primi da S3 i dati con la massima frequenza di accesso, in modo da consentirti di riprendere le attività di query nel più breve tempo possibile.I cluster a nodo singolo non supportano la replicazione dei dati. In caso di guasto di un’unità, occorre ripristinare il cluster partendo da uno snapshot su S3. Per la produzione si consiglia di utilizzare almeno due nodi.

D: Che cosa succede alla disponibilità del mio cluster di data warehouse e alla durata dei miei dati nel caso di un’interruzione di corrente nella zona di disponibilità (AZ) del cluster stesso?

Se la zona di disponibilità del tuo cluster di data warehouse Amazon Redshift non è disponibile, non puoi utilizzare il tuo cluster fino a quando non viene ripristinato l’accesso della zona AZ all’alimentazione e alla rete. I dati del tuo cluster di data warehouse vengono preservati, consentendoti di riprendere a utilizzare il tuo cluster Amazon Redshift non appena la zona AZ è nuovamente disponibile. Puoi inoltre scegliere di ripristinare in una nuova zona AZ della stessa Regione tutti gli eventuali snapshot esistenti. Amazon Redshift ripristina per primi i dati con la massima frequenza di accesso, in modo da consentirti di riprendere le query nel più breve tempo possibile.

D: Amazon Redshift supporta le implementazioni Multi-AZ?

Al momento Amazon Redshift supporta soltanto le implementazioni Single-AZ. È tuttavia possibile eseguire i cluster di data warehouse in più AZ caricando i dati in due cluster di data warehouse Amazon Redshift situati in zone AZ distinte, partendo dal medesimo insieme di file di ingresso su Amazon S3. Con Redshift Spectrum, è possibile avviare cluster su più zone di disponibilità e accedere ai dati in Amazon S3 senza doverli caricare nel cluster. È inoltre possibile ripristinare un cluster di data warehouse su un’altra zona AZ partendo dagli snapshot di un cluster di data warehouse.

Torna all'inizio »


D: In che modo Amazon Redshift effettua il backup dei miei dati?

Amazon Redshift crea una replica di tutti i tuoi dati all’interno del tuo cluster di data warehouse nel momento in cui i medesimi vengono caricati, ed esegue anche costantemente il backup dei tuoi dati su S3. Amazon Redshift tenta sempre di mantenere almeno tre copie dei dati (vale a dire l’originale, una replica sui nodi di calcolo e un backup in Amazon S3). Amazon Redshift è anche in grado di replicare gli snapshot in modo asincrono su Amazon S3 in una regione differente, a scopo di disaster recovery.

D: Per quanto tempo Amazon Redshift conserva i backup? Il valore è configurabile?

Come impostazione predefinita, Amazon Redshift conserva i backup per 1 giorno. È tuttavia possibile configurare tale valore, estendendolo fino a ben 35 giorni.

D: Come si ripristina un cluster di data warehouse Amazon Redshift a partire da un backup?

Tutti i backup automatici sono accessibili nella finestra di retention dei backup. Quando avrai scelto il backup dal quale effettuare il ripristino, provvederemo a effettuare il provisioning di un nuovo cluster di data warehouse e a ripristinare i tuoi dati al suo interno.

D: I backup del cluster di data warehouse devono essere abilitati o sono automatici?

Per impostazione predefinita, Amazon Redshift abilita i backup automatici dei cluster di data warehouse con un periodo di retention di 1 giorno. Lo storage di backup gratuito è limitato alle dimensioni complessive di storage sui nodi del cluster di data warehouse, e si applica soltanto ai cluster di data warehouse attivi. Per un data warehouse con uno storage totale di 8 TB, forniamo ad esempio fino a 8 TB di storage di backup senza costi aggiuntivi. Per estendere il periodo di retention dei backup oltre un giorno è possibile utilizzare la Console di gestione AWS o gli API Amazon Redshift. Per ulteriori informazioni sugli snapshot automatici, consulta la Guida alla gestione di Amazon Redshift. Amazon Redshift esegue il backup soltanto dei dati che sono variati, quindi la maggior parte degli snapshot occupa soltanto uno spazio modesto nello storage di backup gratuito.

D: Come si gestisce la retention dei backup e degli snapshot automatici?

Per gestire il periodo di retention dei backup automatici si deve modificare il parametro "RetentionPeriod" utilizzando la Console di gestione AWS o l'API ModifyCluster. Se desideri disattivare i backup automatici, è sufficiente impostare il periodo di retention su 0 (opzione non consigliata).

D: Cosa succede ai miei backup se elimino il mio cluster di data warehouse?

Quando elimini un cluster di data warehouse, puoi specificare se creare uno snapshot finale al momento dell’eliminazione; tale snapshot permette di ripristinare in un momento successivo il cluster di data warehouse eliminato. Tutti gli snapshot del tuo cluster di data warehouse creati manualmente in precedenza vengono conservati e fatturati alle tariffe standard Amazon S3, a meno che tu non decida di eliminarli.

Torna all'inizio »


D: Come si ricalibrano le dimensioni e le prestazioni di un cluster di data warehouse Amazon Redshift?

Per migliorare le prestazioni di query o rispondere a un sovraccarico della CPU, della memoria o degli I/O, puoi aumentare il numero dei nodi del tuo cluster di data warehouse tramite la Console di gestione AWS o l’API ModifyCluster. Le modifiche richieste del cluster di data warehouse vengono introdotte immediatamente. I parametri relativi all’utilizzo di calcolo, all’impiego dello storage e al traffico di lettura/scrittura dei cluster di data warehouse Amazon Redshift sono disponibili gratuitamente tramite la Console di gestione AWS o gli API di Amazon CloudWatch. È inoltre possibile aggiungere ulteriori parametri definiti dall'utente tramite le funzionalità di personalizzazione dei parametri di Amazon CloudWatch.

Con Redshift Spectrum, è possibile eseguire diversi cluster Amazon Redshift e accedere agli stessi dati in Amazon S3. Diversi casi d'uso possono richiedere cluster differenti. Ad esempio, è possibile utilizzare un cluster per la creazione di report standard e uno per le query di analisi scientifica dei dati. Il team di marketing, inoltre, potrà utilizzare cluster diversi da quelli utilizzati dal team operativo. In base a tipo e numero di nodi nel cluster locale e al numero di file da elaborare per la query, Redshift Spectrum distribuirà automaticamente le attività di elaborazione della query tra le risorse condivise di un pool per la lettura e l'elaborazione dei dati da Amazon S3 e inoltrerà i risultati nel cluster Amazon Redshift per eventuali ulteriori operazioni di elaborazione.

D: Il mio cluster di data warehouse rimane disponibile durante il dimensionamento?

Durante la creazione di un nuovo cluster di data warehouse nel corso delle operazioni di dimensionamento, il cluster di data warehouse esistente rimane disponibile in lettura. Quando il nuovo cluster di data warehouse è pronto, il tuo cluster di data warehouse esistente non è disponibile momentaneamente mentre il record di nome canonico del cluster di data warehouse esistente viene riorientato in modo che punti verso il nuovo cluster di data warehouse. Questo intervallo di mancata disponibilità dura di solito alcuni minuti e si verifica durante la finestra di manutenzione del cluster di data warehouse, a meno che tu non richieda l'applicazione immediata delle modifiche. Amazon Redshift sposta i dati in parallelo dai nodi di calcolo del tuo cluster di data warehouse esistente a quelli del nuovo cluster. Ciò di consente di completare l’operazione nel più breve tempo possibile.

Torna all'inizio »


Q: Amazon Redshift è compatibile con il mio pacchetto software preferito di strumenti di Business Intelligence ed ETL?

Amazon Redshift utilizza SQL standard del settore ed è accessibile utilizzando i normali driver JDBC e ODBC. Puoi scaricare i driver JDBC e ODBC personalizzati per Amazon Redshift dalla scheda Connect Client della nostra Console. Abbiamo validato l’integrazione con vari fornitori di BI ed ETL di uso comune, un certo numero dei quali offre prove gratuite per aiutarti a iniziare a caricare e utilizzare i tuoi dati. Puoi inoltre accedere a AWS Marketplace per implementare e configurare in pochi minuti soluzioni studiate per lavorare con Amazon Redshift.

D: Quali tipi di query supporta Redshift Spectrum?

La sintassi delle query da applicare a tabelle in Redshift Spectrum è la stessa utilizzata per le tabelle nello storage locale del cluster; lo stesso vale per le funzionalità di query. Il riferimento alle tabelle esterne è contenuto nel nome di schema definito nel comando CREATE EXTERNAL SCHEMA con cui sono state registrate.

D: Cosa accade se una tabella nello storage locale ha lo stesso nome di una tabella esterna?

Analogamente a quanto accade nelle tabelle locali, è possibile utilizzare il nome schema per indicare esattamente la tabella in questione utilizzando schema_name.table_name nella query.

D: Quali strumenti di business intelligence e client SQL supporta Redshift Spectrum?

Redshift Spectrum tutti gli strumenti client di Amazon Redshift. Tali strumenti si collegheranno all'endpoint cluster Amazon Redshift tramite connessioni ODBC o JDBC. Non è necessario apportare alcuna modifica.

D: Quali formati di dati supporta Redshift Spectrum?

Redshift Spectrum al momento supporta diversi formati dati aperti, tra cui Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile e TSV.

D: Quali formati di compressione supporta Redshift Spectrum?

Al momento, Redshift Spectrum supporta compressione Gzip e Snappy.

D: Per memorizzare i metadati di un data lake S3 viene utilizzato Hive Metastore. È possibile utilizzare Redshift Spectrum?

Sì. Il comando CREATE EXTERNAL SCHEMA supporta Hive Metastore. Al momento non sono supportati DDL su Hive Metastore.

D: In che modo è possibile ottenere un elenco di tutte le tabelle di database esterne create nel cluster?

Per ottenere questa informazione, inoltra una query alla tabella di sistema SVV_EXTERNAL_TABLES.


D: Come si monitorano le prestazioni di un cluster di data warehouse Amazon Redshift?

I parametri relativi all’utilizzo di calcolo, all’impiego dello storage e al traffico di lettura/scrittura dei cluster di data warehouse Amazon Redshift sono disponibili gratuitamente tramite la Console di gestione AWS o gli API di Amazon CloudWatch. È inoltre possibile aggiungere ulteriori parametri definiti dall’utente tramite le funzionalità di personalizzazione dei parametri di Amazon CloudWatch. Oltre ai parametri CloudWatch, Amazon Redshift fornisce informazioni sulle prestazioni di query e cluster anche tramite la Console di gestione AWS. Tali informazioni consentono di vedere quali utenti e query assorbono la massima frazione di risorse del sistema e di diagnosticare i problemi di prestazioni. È inoltre possibile osservare l’uso delle risorse di ciascun nodo di calcolo per garantire un buon equilibrio di dati e query su tutti i nodi.

D: Alcune query in accesso ai dati nel cluster sembrano essere più lente rispetto alle query di Redshift Spectrum. Perché?

Le query di Amazon Redshift si avvalgono delle risorse del cluster su disco locale. Le query di Redshift Spectrum si avvalgono di risorse scalabili ad hoc per la singola query sui dati in S3. Nella maggior parte dei casi, l'esecuzione su disco locale è più rapida, ma per le query che scansionano grandi volumi di dati e non sono onerose in termini di elaborazione, è possibile applicare maggiori risorse di Redshift Spectrum per velocizzarne il completamento.


D: Che cos'è una finestra di manutenzione? I cluster di data warehouse sono disponibili durante la manutenzione del software?

Amazon Redshift effettua periodicamente la manutenzione per applicare correzioni, miglioramenti e nuove funzionalità al tuo cluster. Puoi cambiare le finestre di manutenzione programmata modificando il cluster, in modo programmatico o utilizzando la console Amazon Redshift. Durante queste finestre di manutenzione, il tuo cluster Amazon Redshift non è disponibile per le normali operazioni. Per ulteriori informazioni sulle finestre di manutenzione e i programmi per regione, consulta la sezione Finestre di manutenzione nella Guida alla gestione di Amazon Redshift.

Torna all'inizio »